Nutch 1.4使用

6 篇文章 0 订阅
3 篇文章 0 订阅

网上关于nutch1.4的文章真是太少了,没有参考只好自己摸索了。

首先到apache下载nutch1.4,1.2以下的版本我是找不到了,本来还想做对比呢。如果谁有的话麻烦给发一个。邮箱anbo724@gmail.com

一、本地版本的nutch1.4使用,这里就不准备介绍了,因为我完全按照http://wiki.apache.org/nutch/NutchTutorial 就可以配置出来,这个大家自己做就好了

二、分布式版本的nutch1.4使用:

首先打开NUTCH_HOME/conf 文件夹下的nutch-site.xml文件

添加:

<property>
    <name>http.agent.name</name>
    <value>adsitnutch</value>
</property>
<property>
    <name>http.robots.agents</name>
    <value>adsitnutch,*</value>
</property>
adsitnutch值任意
用ant重新编译

下面是默认已经安装配置好Hadoop,并且已经运行hadoop集群了。

在Hadoop根目录下的conf文件夹下copy六个文件-就是安装hadoop时需要修改的那几个。



为了方便nutch使用Hadoop集群,使用hdfs用户运行nutch,如果使用其他用户连接Hadoop集群,hadoop会出现目录权限问题。
chown -R hdfs.hadoop /usr/local/branch-1.4

进入nutch根目录下的:runtime/deploy文件夹

输入命令:bin/nutch crawl hdfs://localhost:9100/user/hdfs/urls -dir crawltest -depth 10 -threads 20 -topN 100进行抓取

其中 urls保存的是爬取的起始页、 crawltest保存的是爬取的结果,里面有crawldb、segment和linkdb三个文件夹。

如果要进行特定网站的爬取,就需要进行下面的操作:

修改nutch根目录下的:conf文件夹下的regrex-urlfilter.txt:

# accept anything else
+.
修改为:

 +^http://([a-z0-9]*\.)*news.sohu.com/
urls文件变为:http://news.sohu.com/是搜狐新闻网站的主目录

bin/nutch crawl hdfs://localhost:9100/user/hdfs/urls -dir crawltest -depth 3  -topN 10


Solr使用:

Solr的安装参考:http://wiki.apache.org/nutch/NutchTutorial

主要是:

  • download binary file from here

  • unzip to $HOME/apache-solr-3.X, we will now refer to this as ${APACHE_SOLR_HOME}

  • cd ${APACHE_SOLR_HOME}/example

  • java -jar start.jar

界面地址为:

http://localhost:8983/solr/admin/
http://localhost:8983/solr/admin/stats.jsp
当然这样还不能为nutch建立索引,需要配置一下:

  • cp ${NUTCH_RUNTIME_HOME}/conf/schema.xml ${APACHE_SOLR_HOME}/example/solr/conf/

  • restart Solr with the command “java -jar start.jar” under ${APACHE_SOLR_HOME}/example

  • run the Solr Index command:
这样就配置好solr并且与nutch关联好了,下面就是进行索引的建立了:

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawltest/crawldb -linkdb crawltest/linkdb crawltest/segments/*
然后在:

http://localhost:8983/solr/admin/
就可以输入查询了:界面如下:



查询结果如下:




简单分析一下结果:

<result name="response" numFound="3" start="0">这行说明找到了三个文件与之对应:numFound="3"


每个doc标签代表了一个结果


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值