nutch爬虫解析后获得的url数量有限制

最新推荐文章于 2018-07-24 14:26:41 发布

堕落天使一零

最新推荐文章于 2018-07-24 14:26:41 发布

阅读量2.2k

点赞数

分类专栏： nutch+lucene 文章标签： url 存储

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hero_quan/article/details/5787214

版权

nutch+lucene 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Nutch爬虫将网页爬下来后，分析url的时候确实是会把所有的url给解析出来。但是，如果仔细观察的话，nutch爬虫并不会把所有的解析出来的url传到过滤器里。

查看源码以后发现，nutch爬虫有一个环节里会把很多url给忽略掉。Org.apache.nutch.parse包里的ParseOutputFormat这个类里的getRecordWriter方法里有一个变量叫maxOutlinksPerPage，这个变量就是这一现象的罪魁祸首。原来，nutch爬虫用这个变量规定，解析出来的url当中只有前面maxOutlinksPerPage个url会传到过滤器，并且，存储到下载列表，而这个变量的默认值就是100。所以，没有修改这个变量，nutch爬虫会默认只将前面100个url发送到过滤器，其余的都给无视掉了。

为了修改这个变量的值，我们需要修改crawl-tool.xml这个文件。顺便说下，这个文件是配置爬虫的最主要文件，基本上很多东西可以在这个文件配置。在这个文件加上如下内容：

<property>

<name>db.max.outlinks.per.page</name>

<value>1000</value>

</property>

这样，爬虫会将解析到的url当中前面1000个url传到过滤器。

堕落天使一零

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

堕落天使一零 CSDN认证博客专家 CSDN认证企业博客

码龄15年

22: 原创

114万+: 周排名

59万+: 总排名

6万+: 访问

: 等级

944: 积分

2: 粉丝

4: 获赞

8: 评论

0: 收藏

私信

关注

热门文章

分类专栏

最新评论

Xerces C++ DomDocument msxml.h 重定义问题解决方案.
梦~逝: 这段代码是一个预处理指令，用于防止重复定义某个标识符。首先，它检查是否已经定义了名为__MSXML_LIBRARY_DEFINED__的标识符。如果没有定义，则执行下一行代码，即定义__MSXML_LIBRARY_DEFINED__标识符。如果在其他地方也包含了这段代码，并且已经定义了__MSXML_LIBRARY_DEFINED__标识符，则条件为假，不会再次定义该标识符。这种技术称为“头文件保护”或“宏保护”，它可以防止在编译时出现重复定义的错误。
java判断url地址是否存在
codingMonkey_: 表示完全好使 1楼有病谢谢楼主
java判断url地址是否存在
neOG_: 。。。
java判断url地址是否存在
cliufeifeizihui: 有用吗哥哥，你这不是害人吗，找了几天了，都是这几篇文章转来转去，你说对的转转还行，丫不对的还转，吃饱了撑得啊。郁闷
android模拟post请求上传文件
yaozhangqin2011: 你好，我也是用的这个代码，但是在执行post的时候一直不成功。不知道为什么。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。