最近对搜索引擎研究了一下子,,学到了许多,而对大名顶顶的lucene也有一点认识了,只是它不是一个完整的搜索引擎,所以又找到了刚开源不久的nutch,对比了网上的几篇文章,自己动手做了一下。
现在把自己的全过程总结一下。
-。我的电脑的配置: win2000 crgwin tomcat-4.1.31 nutch-0.7.1.tar j2sdk 1.5 updata6
二。先安装
1. 当然是先安好java,直接双击就可以了,然后再设好环境变量java_home nutch_java_home=%java_home%;
2. 安装tomcat(在e:/tomcat)
3.安装crgwin
4.把nutch解压缩到一个地方(我的e:/nutch)
三。改文件
1.把E:/nutch下的nutch-0.7.1.war复制到tomcat/webapps/下并改名为ROOT.war,然后再解压并覆盖原来的文件。 2。修改nutch目录下conf/crawl-urlfilter.txt 修改#accept hosts in MY.DOMAIN.NAME的下一行为 +^http://([a-z0-9]*/.)*ybu.edu.cn/
3.在nutch目录下新建一个文件名为urls内写入www.ybu.edu.cn
四。运行: 运行crgwin并cd 到nutch目录下。输入 bin/nutch crawl urls -dir ybu.edu -depth 5 -threads 4 >& ybu.log
五。修改 E:/Program Files/Apache Group/Tomcat 4.1/webapps/ROOT/WEB-INF/classes 下的nutch-site.xml 修改为: searcher.dir E:/search/nutch-0.7.1/ybu.edu My path to nutch's searcher dir.
六。使用 打开http://localhost:8080就可以用了。 到此,nutch就安装好了,它支持中文,但分词不理想。是分为单字的。
现在把自己的全过程总结一下。
-。我的电脑的配置: win2000 crgwin tomcat-4.1.31 nutch-0.7.1.tar j2sdk 1.5 updata6
二。先安装
1. 当然是先安好java,直接双击就可以了,然后再设好环境变量java_home nutch_java_home=%java_home%;
2. 安装tomcat(在e:/tomcat)
3.安装crgwin
4.把nutch解压缩到一个地方(我的e:/nutch)
三。改文件
1.把E:/nutch下的nutch-0.7.1.war复制到tomcat/webapps/下并改名为ROOT.war,然后再解压并覆盖原来的文件。 2。修改nutch目录下conf/crawl-urlfilter.txt 修改#accept hosts in MY.DOMAIN.NAME的下一行为 +^http://([a-z0-9]*/.)*ybu.edu.cn/
3.在nutch目录下新建一个文件名为urls内写入www.ybu.edu.cn
四。运行: 运行crgwin并cd 到nutch目录下。输入 bin/nutch crawl urls -dir ybu.edu -depth 5 -threads 4 >& ybu.log
五。修改 E:/Program Files/Apache Group/Tomcat 4.1/webapps/ROOT/WEB-INF/classes 下的nutch-site.xml 修改为: searcher.dir E:/search/nutch-0.7.1/ybu.edu My path to nutch's searcher dir.
六。使用 打开http://localhost:8080就可以用了。 到此,nutch就安装好了,它支持中文,但分词不理想。是分为单字的。