- 博客(1)
- 资源 (4)
- 收藏
- 关注
原创 nutch爬虫 解析后获得的url数量有限制
Nutch爬虫将网页爬下来后,分析url的时候确实是会把所有的url给解析出来。但是,如果仔细观察的话,nutch爬虫并不会把所有的解析出来的url传到过滤器里。 查看源码以后发现,nutch爬虫有一个环节里会把很多url给忽略掉。Org.apache.nutch.parse包里的ParseOutputFormat这个类里的getRecordWriter方法里有一个变量叫maxOutlinksPerPage,这个变量就是这一现象的罪魁祸首。原来,nutch爬虫用这个变量规定,解析出来的url
2010-08-04 09:55:00 2210
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人