转：使用Nutch和Solr抓取并索引网页

最新推荐文章于 2020-08-21 18:40:42 发布

绝地反击T

最新推荐文章于 2020-08-21 18:40:42 发布

阅读量2.3k

点赞数

分类专栏：网络爬虫毕业设计

网络爬虫同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

毕业设计

16 篇文章 0 订阅

订阅专栏

Nutch和Solr是两个由Apache成员创建的实用工具，你可以使用Nutch抓取网页，使用Solr索引你得到的数据。
除了索引各类网站，这些工具还有很多其他功能，本文将不涉及这些，而是一篇针对如何使用Nutch抓取网页并使用Solr索引并搜索你抓取的数据的新手指南。

本文将不会讨论它们如何工作的大量细节，而会告诉你如何运行一个爬虫和建立索引，我将假设你已经搭建好了tomcat服务器。
1、确认你已正确安装JAVA并正确设置了JAVA_HOME和CLASSPATH变量。
2、下载并解压apache-nutch-1.3-bin.tar.gz（http://nutch.apache.org）和apache-solr-3.3.0.gz（http://lucene.apache.org/solr/）到不同的文件夹下。

cd$HOME/nutch-1.3/runtime/local，以下NUTCH_ROOT即为此目录

  chmod +x bin/nutch
3、设置Nutch:编辑NUTCH_ROOT/conf/nutch-default.xml，设置http.agent.name的value为你的爬虫的名字。
   创建文件夹NUTCH_ROOT/crawl
  创建文件NUTCH_ROOT/urls/nutch，输入你想抓取的所有网址，每行一个，确保包括"http://"和结尾的斜杠"/"。

Nutch1.3版本移除了crawl-urlfilter.txt，因此如果需要抓取动态网页，只需修改编辑文件NUTCH_ROOT/conf/regex-urlfilter.txt，找到行

# skip URLs containingcertain characters as probable queries, etc.
-[?*!@=]

这两行意思是跳过在连接中存在? * ! @ =的页面，因为默认是跳过所以，在动态页中存在?，按照此默认设置是不能抓取到的。可以在上面2个文件中都修改成：
   # skip URLscontaining certain characters as probable queries, etc.
   #-[?*!@=]
   另外增加允许的一行
   # accept URLscontaining certain characters as probable queries, etc.
   +[?=&]
   意思是抓取时候允许抓取连接中带 ? =& 这三个符号的连接
4、设置Solr:拷贝NUTCH_ROOT/conf目录下所有文件至SOLR_ROOT/example/solr/conf，覆盖任何可能存在的文件。
  编辑SOLR_ROOT/example/solr/conf/schema.xml，将修改行71关于存储属性的设置由false改为true。
  编辑SOLR_ROOT/example/solr/conf/solrconfig.xml，将以下行加到第一个requestHandler标签之上：
<requestHandler name="/nutch"class="solr.SearchHandler" >
<lst name="defaults">
<strname="defType">dismax</str>
<strname="echoParams">explicit</str>
<floatname="tie">0.01</float>
<str name="qf">
content^0.5 anchor^1.0 title^1.2
</str>
<str name="pf">
content^0.5 anchor^1.5 title^1.2 site^1.5
</str>
<str name="fl">
url
</str>
<str name="mm">
2<-1 5<-26<90%
</str>
<intname="ps">100</int>
<strname="q.alt">*:*</str>
<str name="hl.fl">title urlcontent</str>
<strname="f.title.hl.fragsize">0</str>
<strname="f.title.hl.alternateField">title</str>
<strname="f.url.hl.fragsize">0</str>
<strname="f.url.hl.alternateField">url</str>
<strname="f.content.hl.fragmenter">regex</str>
</lst>
</requestHandler>
5、启动Solr:$ cd SOLR_ROOT/example
   $ java -jar start.jar
6、启动爬虫：$ cd NUTCH_ROOT
   启动命令有如下选项：-dir指定抓取的数据存放的目录
   -threads 指定同时抓取的线程数（可选）
   -depth 指定从根页面起希望抓取的链接层级数
   -topN 指定每层链接要抓取的最大网页数
你可以设置任意数字，一般情况下数字越大抓取的数据越多。抓取的时间也越长。
例如，下面这个抓取命令可能要用上一两天时间
$ NUTCH_ROOT/bin/nutch crawl urls -dir crawl-depth 20 -topN 2000000
7、索引抓取结果：
$ bin/nutch solrindex http://HOST_ADDRESS:8983/solr/crawl/crawldb crawl/linkdb crawl/segments/*
这里的端口号和下面提到的端口号依据你的服务器设置而定，访问http://HOST_ADDRESS:8983/solr/admin，查看缺省的Solr管理面板，搜索索引。
当你到达结果页后，你可以在地址栏看到url，点击url你也可以看到XML的结果。
依据以上步骤，你将拥有你自己的一个迷你搜索引擎。它将只会搜索你所指定的网址，但你了解更多后，你将发现Nutch和Sorl能帮你实现更多神奇的事情。