将nutch的结果用solr搜索显示出来

最新推荐文章于 2021-01-19 02:55:07 发布

devil27

最新推荐文章于 2021-01-19 02:55:07 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/devil27/article/details/8110884

版权

通过前两天对nutch，solr，tomcat的搭建，三个都出乎意料的跑起来了，虽然中间都有失败，但是问题都解决了，剩下的问题就是要将爬行的结果用搜索引擎显示出来，这里有两个方法来搜索，第一个就是用nutch1.2自带的nutch1.2.war做webapp，另外一个方法就是用solr3.6做webapp，下面就分两种方法分别来搜索。

第一种方法：

首先用nutch1.2爬行网络，爬行网络比较简单，主要步骤如下

1 下载apache-nutch-1.2-bin.tar.gz，并解压

2 进入解压目录，mkdir urls，增加文件seed.txt,添加内容http://www.163.com

3 修改con/下面的nutch-site.xml,增加内容，不增加爬行会出错

<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
4 修改crawl-urlfilter.txt 和 regex-urlfilter.txt 都在末尾修改+.为+^http://([a-z0-9]*\.)*163.com

5 配置完成，执行抓取命令 bin/nutch crawl urls -dir crawl -depth 3 -topN 5，抓取完成后会在crawl目录下面生成我们搜索的数据，下一步我们需要用到。

6 将nutch-1.2.war拷贝到tomcat下面的webapp里面，拷贝进去后会自动生成nutch-1.2/文件夹，修改nutch-1.2\WEB-INF\classes里面的nutch-site.xml,增加如下内容

<property>
<name>searcher.dir</name>
<value>/home/yht/nutch/nutch-1.2/crawl/</value>
</property>

7 配置完成，运行http://10.0.6.60:8080/nutch-1.2，即可搜索

方法二：

昨天已经将solr3.6.0已经搭建好了，通过tomcat也能访问，上一篇已经记录了，这里就不再写了，剩下的工作就是要将nutch的数据连接到solr上，步骤如下：

1 需要将nutch con下面的schema.xml拷贝到solr下面，具体位置example/solr/conf ，并将content的stored的属性改为true

2 更改solrconfig.xml ,将“df”的属性全部改为content，不然搜索会搜不到。

3 执行bin/nutch solrindex http://localhost:8080/solr/ crawl/crawldb/ -linkdb crawl/linkdb/ crawl/segments/* ，连接数据库

4 然后运行tomcat，查询。

以上就是两种查询方法，至此，环境搭建基本上都已经完成，下一步就是抽时间学习java基础，研究nutch1.5源码。