想学习java语言下的搜索引擎,那就必须从Apache的开源项目Lucene学起,而刚开始学习,如想搭建一个有效使用的搜索引擎是很困难的,而Apache下的开源项目Nutch正好能帮助初学者对搜索引擎的学习。Nutch是一个Java实现的完全开源的搜索引擎包,它提供了我们运行自己的搜索引擎所需的所有全部工具。
下面开始搭建nutch:
安装Nutch的准备:
1:JDK8本文使用jdk1.8.0_25,由于其它软件使用的版本较高,之前试过jdk1.6.0_24不能用,由于软件的向前兼容特性,故最好用高版本的软件。下载地址:http://www.baidu.com/baidu?wd=jdk&tn=cnopera&ie=utf-8。能直接下载最新版本
2:Tomcat6.0本文使用Tomcat6.0 下载地址:http://tomcat.apache.org/download-60.cgi
选择:中的Core中的Installer选项。
3:Nutch当前nutch最高版本为nutch2.2.1,本文使用nutch 1.9。nutch1.2之前的搜索使用nutch.war的文件作为搜索引擎程序,而1.2之后使用solr作为搜索引擎程序,故1.2之后的版本变化不大。
下载地址:http://mirrors.hust.edu.cn/apache/nutch/1.9/apache-nutch-1.9-bin.tar.gz
4:Solr4.9下载地址:http://mirror.bit.edu.cn/apache/lucene/solr/4.9.1/solr-4.9.1.zip
5:IKAnalyzer2012.jar下载地址:http://dldx.csdn.net/fd.php?i=491644778457880&s=fdbcd4e99d31e0a9b03508d151441581再次强调一下,java的配置真的很麻烦!希望这种图文并茂的教程在网上能够真心多一点,搞了好几天才搞定中文分词的配置。遗憾的是网上说的使用IK中文分词还是没有在solr-4.9.0中搞定。我用的是http://www.cnblogs.com/qiyebao/p/3888181.html这个分词器。
相关安装教程:http://blog.csdn.net/witsmakemen/article/details/8256369
配置Solr:http://abloz.com/2012/07/02/apache-search-engine-solr-trial.html
http://www.luoshengsha.com/118.html