声明:本博文参考了很多资料,主要来自http://blog.csdn.net/jiutao_tang/article/details/6461884/,http://www.cnblogs.com/xia520pi/p/3615554.html,可以点击这些原文观看
nutch是Apach开源项目,是由java实现的web爬虫,可以直接抓取网页内容,并使用内嵌的Lucene生成本地检索文件,提供全文索引搜索功能.
这里在ubuntu14.04系统中,我采用nutch-1.2+Tomcate6.0.53+IKAnalyzer3.2.8+ant+javacc实现本地搜索引擎.
系统架构:
1.环境配置
jdk的安装是必须的,这个网上教程很多,不赘述.
tomcat的安装参考我的另一篇博文:http://www.cnblogs.com/qj4d/p/7222323.html
nutch的安装也跟tomcat类似,下载nutch1.2后,解压缩,将其/bin目录添加到/etc/profile中,别忘了完成后执行source /etc/profile
NUTCH_HOME=/home/xxxx/Documents/apache-nutch-1.2 export PATH=$PATH:$NUTCH_HOME/bin:
IKAnalyzer3.2.8下载,这个我是从csdn上下的.
ant和javacc的安装很简单,直接apt-get install即可.
2.修改"nutchz1.2/src/java/org/apache/nutch/searcher/Query.java" line 36附近,import异常类:
org.apache.nutch.analysis.ParseException;