Nutch2.x 演示抓取第一个网站

http://www.micmiu.com/opensource/nutch/nutch2x-crawl-first-website/?utm_source=tuicool&utm_medium=referral

下面演示的过程是基于目前 Nutch 2.2.1 自己编译配置的版本。

在编译后 bin目录下有两个脚本文件:nutch 和 crawl ,在命令行下执行各命令即可查看具体使用说明:

 

在Nutch2.x版本中,爬取流程所涉及的命令做了优化,整合到了crawl 命令中,使用者只需要执行一个命令 crawl 即可完成爬取流程,而不必像老版本中那样,必须依次地执行 inject、generate、fetch、parse等命令。对于初学者来说仍然可以依次执行相关命令 ,仔细观察每执行一步引起的数据变化。下面以抓取 本人博客网站为例详细说明下抓取的过程:

[准备]:创建需要抓取的URL

  • 首先启动hbase (本文是在单机模式下演示的)
  • mkdir -p urls
  • cd urls
  • touch seed.txt
  • echo ‘http://micmiu.com’ >seed.txt

下面每一步执行后都可以查看HBase中数据的变化情况。

[第一步]:inject

查看HBase中得数据:

[第二步]:generate

查看HBase中得数据:

[第三步]:fetch

ps:上一步执行的日志中 GenerateorJob batch id 的值 作为下面命令的参数 batchId的值

也可以从hbase中重查询到:

下面执行 fetch 命令:

查看HBase中得数据:

[第四步]:parse

查看HBase中得数据:

[第五步]:updatedb

查看HBase中得数据:

—————–  EOF @Michael Sun —————–

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值