nutch1.3数据流程图

最新推荐文章于 2024-09-14 21:13:40 发布

豹先生_MR-BAO

最新推荐文章于 2024-09-14 21:13:40 发布

阅读量1k

点赞数

分类专栏： cloudera solr 文章标签： mapreduce url solr generator 存储数据库

cloudera 同时被 2 个专栏收录

69 篇文章 0 订阅

订阅专栏

23 篇文章 0 订阅

订阅专栏

流程入口org.apache.nutch.crawl crawl.java Crawl::run 里面的很多类中都使用了mapreduce框架进行数据处理

ulrs:存放在hdfs中的待爬取的urls种子列表

Injector:使用mapreduce任务将urls列表放入CrawlDb数据库中（MapFile），期间会使用配置文件配置的插件进行url的归一化和过滤操作.

crawldb:生成的url及元数据的map库

Generator:从crawldb中逐步获取一部分url放入fetchlist中，并以sements的形式存放，期间会根据时间戳更新crawldb中的url状态（CrawlDbUpdate），以避免重复抓取，并且会给每个url打个分，低于配置的阈值的丢弃

segements/time/crawl_generate:生成的符合条件的待抓取ulrs和元数据

Fetcher/ParseSegment: fetcher使用一个生产者，多个消费者的模式，中间使用队列，生产者(QueueFeeder)往队列里面塞待抓取的url数据，多个消费者(FeatcherThread)从队列中取数据给fetcher去抓取url对应的网页数据，期间会根据robot协议和protocal进行重试，重定向等操作，根据是否解析和存储网页数据，进行ParseSegment操作和存储操作

crawl_fetch,crawl_parse,parse_text,parse_data,content:抓取到的url对应的网页数据，以不同的形式存放。

LinkDb:invert:根据url之间的链接，生成反向链接表linkdb

linkdb:生成的反向链接表

CrawlDb::update:从featcher的输出,其中有新的url,更新crawldb

SolrIndexer::indexSolr:调用solr的建索引接口，使用生成的linkdb,crawldb,segments数据以及solr中的字段配置solr/example/solr/conf/schema.xml信息建索引

index:生成的索引

SolrDeleteDuplicates::dedup:去重，同一digest的doc，保持boost最高的，boost最高的有多条，保留时间戳最新的

dedupped index:去重后的index

豹先生_MR-BAO

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。