Nutch1.7Generator源代码分析

最新推荐文章于 2022-10-13 20:32:27 发布

july_2

最新推荐文章于 2022-10-13 20:32:27 发布

阅读量527

点赞数

分类专栏： solr

solr 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

Generator分析

Generator的功能主要是将注入的URL按照一定的规则生产一系列CrawlDb的子集。这里的规则包括：抓取时间是否符合要求，是否符合设定过滤规则，根据页面评分进行排序，根据URL的host/ip/domain划分子集，是否超过设定的generate最大值(就是Crawl命令中的topN值)等。

generate方法主要包括三个job的执行：

第一个job的map和reduce均由内部类Selector类实现，另外还包含了Partitioner类的getPartition方法。

map方法所干的活：

根据URLFilters对url进行过滤，并比较抓取时间看是否符合要求，过滤掉低于generate.min.score参数设定分数值的URL，然后计算url的评分并按照评分降序排列。

分别对应下面代码行：

filters.filter(url.toString())

schedule.shouldFetch(url, crawlDatum, curTime)

scfilters.generatorSortValue(key, crawlDatum, sort);

getPartition方法所干的活：

该接口最终由URLPartitioner类实现，主要是对URL的host/domain/Ip把URL划分成很多子集，这样对后面的抓取有好处。比如可以避免对同一个站点的多个线程同时发起请求。

reduce所干的活：

判断产生的URL数量是否超过命令行输入中的topN值，如果超过了就停止。其他一些参数的限制，如：generate.max.count。输出为<Text,SelectorEntry>作为中间结果。

第二个job的map由SelectorInverseMapper类实现，而reduce方法由PartitionReducer类实现。具体功能：TODO，需进一步分析!

第三个job的map和reduce都由CrawlDbUpdater实现。该任务是否执行取决于主要generate.update.crawldb配置参数的值，默认不执行。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

july_2 CSDN认证博客专家 CSDN认证企业博客

码龄12年

37: 原创

17万+: 周排名

87万+: 总排名

84万+: 访问

: 等级

6583: 积分

115: 粉丝

62: 获赞

64: 评论

47: 收藏

私信

关注

热门文章

分类专栏

hadoop 12篇
solr 23篇
lucene 30篇
hbase 5篇
j2se 35篇
linux 19篇
datamining 18篇
mahout 14篇
eclipse 3篇
mapreduce 8篇
mongo 5篇
rpc 2篇
elasticsearch 49篇
mysql 10篇
web 4篇
redis 11篇
apache hadoop 1篇

最新评论

更换mysql数据目录后出现ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/lib/mysql
tntpro0545: 在网上搜了半天也没个所以然，一个个都是相互抄袭，各种拷贝，没有一个靠谱的。你这句话说到我心坎了，自2012年后此风气渐盛，没有一点技术人员的认真和朴实。导致互联网虚假信息乱飞，时间精力都耗费了，需要消耗大量的时间精力做信息甄别。互联网已经没有当初的环境纯净了。
解决ERROR 1130: Host '192.168.1.3' is not allowed to connect to this MySQL server 方法
SummerPapa: flush privileges;
elasticsearch获取java client实例
happydream_C: 博主您好，有个es问题想请教下，在javaweb程序服务器启动后，首次从es查询数据时获取TransportClient都会比较久，后面查询重新获取TransportClient会相对快点，不知道具体是什么原因造成的，博主有解决过相同的问题麻烦分享下问题原因及解决方案，非常感谢。获取TransportClient代码如下： public static Client getClient() throws UnknownHostException { Client client = null; try { if (StringUtils.isEmpty(ip)) { ip = def_ip; } if (port == 0) { port = def_port; } client = TransportClient.builder().build().addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName(ip), port)); } catch (Exception e) { e.printStackTrace(); } return client; }
生产环境使用elasticsearch遇到的一些问题以及解决方法（不断更新）
星辰_mya: 生产环境使用elasticsearch遇到的一些问题以及解决方法（不断更新）,谢谢分享
elasticsearch集群管理工具head插件
星辰_mya: elasticsearch集群管理工具head插件，学习了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。