nutch学习笔记1.crawl

org.apache.nutch.crawl.crawl 类为nutch抓取封装类,引入并整合了如下几部分:

Injector injector = new Injector(conf); ///URL注入器对象;数据下载入口
Generator generator = new Generator(conf); 生成器;生成待下载URL列表
Fetcher fetcher = new Fetcher(conf); //抓取器;按照HTTP协议访问互联网,获取网页数据具体内容。下载过程由下载列表和操作参数控制,直到下载完毕。
ParseSegment parseSegment = new ParseSegment(conf); //解析数据段;数据段(Segment)存放网络爬虫每一次抓取使用的待下载列表、已经获得的网页内容和本次内容的索引。
CrawlDb crawlDbTool = new CrawlDb(conf); //抓取数据库工具
LinkDb linkDbTool = new LinkDb(conf); //链接库工具

DeleteDuplicates dedup = new DeleteDuplicates(conf); //删除重复链接的对象

Indexer indexer = new Indexer(conf);    //索引器

IndexMerger merger = new IndexMerger(conf);        //索引器合并

在linux环境下执crawl.sh脚步会同时启动并顺序执行以上代码,直到索引器合并后完成一次抓取。抓取的时间和复杂度决定于原始抓取列表和抓取参数。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值