通过前两天对nutch,solr,tomcat的搭建,三个都出乎意料的跑起来了,虽然中间都有失败,但是问题都解决了,剩下的问题就是要将爬行的结果用搜索引擎显示出来,这里有两个方法来搜索,第一个就是用nutch1.2自带的nutch1.2.war做webapp,另外一个方法就是用solr3.6做webapp,下面就分两种方法分别来搜索。
第一种方法:
首先用nutch1.2爬行网络,爬行网络比较简单,主要步骤如下
1 下载apache-nutch-1.2-bin.tar.gz,并解压
2 进入解压目录,mkdir urls,增加文件seed.txt,添加内容http://www.163.com
3 修改con/下面的nutch-site.xml,增加内容,不增加爬行会出错
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
4 修改crawl-urlfilter.txt 和 regex-urlfilter.txt 都在末尾修改+.为+^http://([a-z0-9]*\.)*163.com
5 配置完成,执行抓取命令 bin/nutch crawl urls -dir crawl -depth 3 -topN 5,抓取完成后会在crawl目录下面生成我们搜索的数据,下一步我们需要用到。
6 将nutch-1.2.war拷贝到tomcat下面的webapp里面,拷贝进去后会自动生成nutch-1.2/文件夹,修改nutch-1.2\WEB-INF\classes里面的nutch-site.xml,增加如下内容
<property>
<name>searcher.dir</name>
<value>/home/yht/nutch/nutch-1.2/crawl/</value>
</property>
7 配置完成,运行http://10.0.6.60:8080/nutch-1.2,即可搜索
方法二:
昨天已经将solr3.6.0已经搭建好了,通过tomcat也能访问,上一篇已经记录了,这里就不再写了,剩下的工作就是要将nutch的数据连接到solr上,步骤如下:
1 需要将nutch con下面的schema.xml拷贝到solr下面,具体位置example/solr/conf ,并将content的stored的属性改为true
2 更改solrconfig.xml ,将“df”的属性全部改为content,不然搜索会搜不到。
3 执行bin/nutch solrindex http://localhost:8080/solr/ crawl/crawldb/ -linkdb crawl/linkdb/ crawl/segments/* ,连接数据库
4 然后运行tomcat,查询。
以上就是两种查询方法,至此,环境搭建基本上都已经完成,下一步就是抽时间学习java基础,研究nutch1.5源码。
第一种方法:
首先用nutch1.2爬行网络,爬行网络比较简单,主要步骤如下
1 下载apache-nutch-1.2-bin.tar.gz,并解压
2 进入解压目录,mkdir urls,增加文件seed.txt,添加内容http://www.163.com
3 修改con/下面的nutch-site.xml,增加内容,不增加爬行会出错
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
4 修改crawl-urlfilter.txt 和 regex-urlfilter.txt 都在末尾修改+.为+^http://([a-z0-9]*\.)*163.com
5 配置完成,执行抓取命令 bin/nutch crawl urls -dir crawl -depth 3 -topN 5,抓取完成后会在crawl目录下面生成我们搜索的数据,下一步我们需要用到。
6 将nutch-1.2.war拷贝到tomcat下面的webapp里面,拷贝进去后会自动生成nutch-1.2/文件夹,修改nutch-1.2\WEB-INF\classes里面的nutch-site.xml,增加如下内容
<property>
<name>searcher.dir</name>
<value>/home/yht/nutch/nutch-1.2/crawl/</value>
</property>
7 配置完成,运行http://10.0.6.60:8080/nutch-1.2,即可搜索
方法二:
昨天已经将solr3.6.0已经搭建好了,通过tomcat也能访问,上一篇已经记录了,这里就不再写了,剩下的工作就是要将nutch的数据连接到solr上,步骤如下:
1 需要将nutch con下面的schema.xml拷贝到solr下面,具体位置example/solr/conf ,并将content的stored的属性改为true
2 更改solrconfig.xml ,将“df”的属性全部改为content,不然搜索会搜不到。
3 执行bin/nutch solrindex http://localhost:8080/solr/ crawl/crawldb/ -linkdb crawl/linkdb/ crawl/segments/* ,连接数据库
4 然后运行tomcat,查询。
以上就是两种查询方法,至此,环境搭建基本上都已经完成,下一步就是抽时间学习java基础,研究nutch1.5源码。