Nutch入门学习

最新推荐文章于 2018-01-03 20:36:22 发布

aidayei

最新推荐文章于 2018-01-03 20:36:22 发布

阅读量2.1k

点赞数

分类专栏：搜索引擎文章标签： solr lucene tomcat 数据库 exception hadoop

本文链接：https://blog.csdn.net/aidayei/article/details/6611382

版权

搜索引擎专栏收录该内容

15 篇文章 0 订阅

订阅专栏

因为solr生成的索引是放在本地磁盘的，为了把搜索索引放到HDFS上，所以最近看了一下搭建分布式Nutch和Nutch+solr的集成

Nutch的抓取流程：对目标网站完成抓取后，在保存抓取数据目录crawl 下产生了五个子目录： crawldb，linkdb，segments，indexes 和 index 。数据库 crawldb 中包含页面的数目等；linkdb 包含页面在数据库中的链接，这是抓取器真正抓取网站时由页面的链接数目决定；Segments 数据库按照时间戳分为三个片断，每个片断的产生都经历了 generate/fetch/update 三个过程；Indexes 数据库包含了在 generate/fetch/update 过程中产生的 Lucene 索引；Index 数据库包含了经合并处理后的 Lucene 索引。

Nutch的单机运行：

1.从官网上下载Nutch的bin包，然后解压。本人用的是Nutch-1.2，不保证其它版本的安装过程也是如此

2.在nutch的安装目录下，新建一个文件夹urls(可以任意命名)，在这个文件夹下，新建一个文本文件url.txt(可以任意命名)，在这个文本中写入http://www.baidu.com，这个就是爬虫的入口地址。

3.打开nutch-1.2/conf/crawl-urlfilter.xml，定位到MY.DOMAIN.NAME这一行，将+^http://([a-z0-9]*/.)*MY.DOMAIN.NAME/ 改为

+^http://([a-z0-9]*/.)*，即将后面的域名换成*，意思是可以爬取任意网站

4.打开nutch-1.2/conf/nutch-site.xml，加入下面内容

<configuration>
    <property>
      <name>http.agent.name</name>
       <value>MySearch</value>
    </property>
</configuration>

否则，报错：

Fetcher: No agents listed in 'http.agent.name' property.
Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property

运行下面命令：

bin/nutch crawl urls -dir crawl -depth 2 -topN 100 -threads 2
其中：   -dir = localweb 指明下载数据存放路径，该目录不存在时，会被自动创建
            -deptch = 2 下载深度为2
            -topN = 100      下载符合条件的前100个页面
            -threads = 2      启动的线程数目
爬虫运行时会输出大量数据，抓取结束之后，可以发现crawl目录被生成，里面有crawldb，linkdb，segments，indexes 和 index 五个目录。

运行Nutch搜索：

1.下载tomcat并运行

2.将nutch-1.2中的nutch-1.2.war复制到tomcat6/webapps/中，tomcat在运行状态下会自动解压缩这个包，打开解压缩后的包，在文件/nutch-1.2/WEB-INF/classed/nutch-site.xml中加入：

<property>
<name>searcher.dir</name>
<value>/usr/local/nutch-1.2/crawl</value>

</property>

这个value值为所爬取到的数据的存储路径，搜索引擎根据这个路径搜索到用户想要的内容。

3.在web上运行nutch搜索：

地址栏输入：http://localhost:8080/nutch-1.2

在出现的搜索界面中填写搜索关键词，即可获得结果。如果出现乱码，则将tomcat安装目录下conf/server.xml定位到connector并修改一下：

参考资料：Nutch-1.2配置

Nutch分布式配置

Nutch=hadoop+lucene，从官网上下载Nutch，解压后，发现确实已经包含了hadoop的包和lucene的包，Nutch的分布式搭建和hadoop的集群搭建类似，先将ssh连通各机器，然后写好配置文件，详见下面的参考资料：

1.http://wiki.apache.org/nutch/NutchHadoopTutorial

2.NutchHadoopTutorial对应的中文翻译

3.Nutch分布式安装

4.Nutch的集群式搜索

5.nutch-1.0 的分布式查询部署

Nutch+solr

solr要用1.4版，我用3.1版，结果映射索引时报错：java.io.IOException: Job failed!
不知道为什么原因？也不知道如何跟踪在哪一步报的错？如果有知道的大侠，请不吝赐教！

2011-8-1补答：nutch1.2中solrj是1.4.0版，所以映射到solr3.1时会报错，版本要保持一致才可以

1.配置schema.xml

把nutch1.2conf目录下的schema.xml复制到/home/test/solr-1.4/example/solr/conf中替换原文件。
2.在/home/test/solr-1.4/example/solr/conf/solrconfig.xml中末尾增加以下内容:

<requestHandler name="/nutch" class="solr.SearchHandler" >
<lst name="defaults">
<str name="defType">dismax</str>
<str name="echoParams">explicit</str>
<float name="tie">0.01</float>
<str name="qf">content^0.5 anchor^1.0 title^1.2 </str>
<str name="pf"> content^0.5 anchor^1.5 title^1.2 site^1.5 </str>
<str name="fl"> url </str>
<str name="mm">2&lt;-1 5&lt;-2 6&lt;90%</str>
<int name="ps">100</int>
<bool name="hl">true</bool>
<str name="q.alt">*:*</str>
<str name="hl.fl">title url content</str>
<str name="f.title.hl.fragsize">0</str>
<str name="f.title.hl.alternateField">title</str>
<str name="f.url.hl.fragsize">0</str>
<str name="f.url.hl.alternateField">url</str>
<str name="f.content.hl.fragmenter">regex</str>
</lst>
</requestHandler>

注意：不要出现大于小于号，要把它转化成对应的转义字符。不然tomcat在启动时就会在加载solrconfig.xml时报错

3.启动solr服务：solr/example/java -jar start.jar

4.将nutch的索引映射到solr

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb crawl/linkdb crawl/segments/*

5.测试solr索引
访问solr查询界面,提交查询表单,检查能否查到数据 http://127.0.0.1:8983/solr/admin

参考资料：

1.Using Nutch with solr
2.http://blog.csdn.net/laigood12345/article/details/6091813

aidayei

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录