将nutch的结果用solr搜索显示出来

         通过前两天对nutch,solr,tomcat的搭建,三个都出乎意料的跑起来了,虽然中间都有失败,但是问题都解决了,剩下的问题就是要将爬行的结果用搜索引擎显示出来,这里有两个方法来搜索,第一个就是用nutch1.2自带的nutch1.2.war做webapp,另外一个方法就是用solr3.6做webapp,下面就分两种方法分别来搜索。


第一种方法:


         首先用nutch1.2爬行网络,爬行网络比较简单,主要步骤如下


1       下载apache-nutch-1.2-bin.tar.gz,并解压


2        进入解压目录,mkdir  urls,增加文件seed.txt,添加内容http://www.163.com


3        修改con/下面的nutch-site.xml,增加内容,不增加爬行会出错


       <property>
       <name>http.agent.name</name>
       <value>My Nutch Spider</value>
       </property>
4    修改crawl-urlfilter.txt 和 regex-urlfilter.txt 都在末尾修改+.为+^http://([a-z0-9]*\.)*163.com


5    配置完成,执行抓取命令   bin/nutch crawl urls -dir crawl -depth 3 -topN 5,抓取完成后会在crawl目录下面生成我们搜索的数据,下一步我们需要用到。


6    将nutch-1.2.war拷贝到tomcat下面的webapp里面,拷贝进去后会自动生成nutch-1.2/文件夹,修改nutch-1.2\WEB-INF\classes里面的nutch-site.xml,增加如下内容


<property>
<name>searcher.dir</name>
<value>/home/yht/nutch/nutch-1.2/crawl/</value>
</property>


7   配置完成,运行http://10.0.6.60:8080/nutch-1.2,即可搜索


方法二:


      昨天已经将solr3.6.0已经搭建好了,通过tomcat也能访问,上一篇已经记录了,这里就不再写了,剩下的工作就是要将nutch的数据连接到solr上,步骤如下:


1  需要将nutch con下面的schema.xml拷贝到solr下面,具体位置example/solr/conf ,并将content的stored的属性改为true


2  更改solrconfig.xml ,将“df”的属性全部改为content,不然搜索会搜不到。


3  执行bin/nutch solrindex http://localhost:8080/solr/ crawl/crawldb/ -linkdb crawl/linkdb/ crawl/segments/*  ,连接数据库


4  然后运行tomcat,查询。


以上就是两种查询方法,至此,环境搭建基本上都已经完成,下一步就是抽时间学习java基础,研究nutch1.5源码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值