如何开始NUTCH

  下载、编译、配置看官方手册。使用时注意的是nutch和crawl脚本都的区别。nutch只单步执行相关命令,要按流程爬取的话用crawl脚本(种子注入到生成索引按流程处理),实质上crawl也是调用nutch脚本进行批处理的。另外,local模式时HBase要起来。


注入种子

$ bin/nutch inject   
Usage: InjectorJob <url_dir> [-crawlId <id>]  
 
$bin/nutch inject ./urls -crawlId CRAWL_1
$bin/nutch inject ./urls


$ bin/crawl 
Missing seedDir : crawl <seedDir> <crawlID> <solrURL> <numberOfRounds>


$ bin/crawl ./urls CRAWL_1_webpage 1


看爬结果

$hbase shell
$scan 'CRAWL_1_webpage'



crawl脚本的过程:

1、检测参数及配置

2、initial injection ==>> CLASS=org.apache.nutch.crawl.InjectorJob

3、主循环(1~numberOfRounds)

3.1、Generating a new fetchlist ==>> CLASS=org.apache.nutch.crawl.GeneratorJob

3.2、Fetching ==>> CLASS=org.apache.nutch.fetcher.FetcherJob

3.3、Parsing ==>> CLASS=org.apache.nutch.parse.ParserJob

3.4、updatedb ==> CLASS=org.apache.nutch.crawl.DbUpdaterJob

3.5、Indexing(如果有的话,默认solr) ==>> CLASS=org.apache.nutch.indexer.IndexingJob

3.6、solrdedup(如果有的话,去重) ==>> CLASS=org.apache.nutch.indexer.solr.SolrDeleteDuplicates

4、打完收工


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值