nutch -1.2 command

 

nutch.job 文件的使用:

hadoop jar nutch-1.2.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1

 

抓取 

bin/nutch crawl urls -dir <dir> -depth <int> -topN <int> -threads <int> >& <dir>/<file>.log 

steps in 
1.读取urls目录下的站点添加crawldb里 
bin/nutch inject <dir>/crawldb urls 
2.创建一个segments,存放目录下 
bin/nutch generate <dir>/crawldb <dir>20090519/segments 
3.根据文件夹下生成的下载列表获取页面内容 
bin/nutch fetch <dir>/segments/<newdir>/ 
4.从已下载的的段数据列表里获取URL链接,更新crawldb内容 
bin/nutch updatedb dir/crawldb dir/segments/newdir 
5.分析链接关系,生成反向链接 
bin/nutch invertlinks dir/linkdb -dir dir/segments 
6.创建页面内容索引 
bin/nutch index dir/indexes dir/crawldb dir/linkdb dir/segments/newdir 
7.删除重复数据 
bin/nutch dedup dir/indexes 
8.合并索引文件 
bin/nutch merge dir/index dir/indexes 

读取命令 (d for <dir>, w for a website url)
1.查看crawldb数据库:bin/nutch readdb dir/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。 
  导出权重和相关的url信息:bin/nutch readdb d/crawldb/ -topN 20 urldb(out_dir) 
  查看每个url地址的详细内容,导出数据:bin/nutch readdb d/crawldb/ -dump crawldb(out_dir) 
  查看具体的url:bin/nutch readdb d/crawldb/ -url w
2.查看linkdb数据库的链接情况:bin/nutch readlinkdb d/linkdb/ -url w 
  导出linkdb数据库文件:bin/nutch readlinkdb d/linkdb/ -dump linkdb(out_dir) 
3.查看segments:bin/nutch readseg -list -dir d/segments/ 可以看每一个segments的名称,产生的页面数,抓取的开始时间和结束时间,抓取数和解析数。 
导出segments:bin/nutch readseg -dump d/segments/nd segdb(out_dir) 

man:输入bin/nutch查看

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值