heritrix多线程抓取解析多个DNS就停止的原因及解决办法
heritrix在使用ELFHash等算法进行多线程抓取时经常出现只解析多次DNS就停止的情况。网上说的一些原因都不清楚。经过两天研究,基本找到了原因并提供一个简单的解决办法。
当使用多线程进行抓取时,种子url先经过DNS解析,DNS解析需要一定的时间,当DNS还没有解析完毕时,种子url已经抓取完毕并且重试了多次,所以当DNS解析完毕时没有新的url加入队列。而在单线程模式下,种子url...
2010-11-18 00:11:26 ·
172 阅读 ·
0 评论