Heritrix提高抓取效率的若干尝试

最新推荐文章于 2018-11-17 10:40:56 发布

Devin__Yang

最新推荐文章于 2018-11-17 10:40:56 发布

阅读量1.9k

点赞数

分类专栏： heritrix 网络爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/yangding_/article/details/41122977

版权

本文介绍了如何通过调整Heritrix爬虫的配置以提高抓取效率。首先，通过实现ELFHashQueueAssignmentPolicy，利用多线程并行抓取同一域名下的网页，显著提升抓取速度。其次，通过调整DecideRules和正则表达式，确保只抓取HTML等特定类型的文件，避免无关文件的下载。最后，讨论了取消对robots.txt的遵循以节省抓取时间，但未提供性能对比数据。整体优化后，Heritrix的抓取效率大幅提升。

摘要由CSDN通过智能技术生成

一．利用ELFHash策略多线程抓取网页

这些天看了其它小组的博客，发现大家用Heritrix抓取所花的时间都比较长，基本都要花上数天的时间才能抓完，名副其实的爬虫…之所以这么慢，一个重要的原因是heritrix在抓取时一般只运行了一个线程。在网上查找原因，得知这是因为在默认的情况下，Heritrix使用HostnameQueueAssignmentPolicy来产生key值，而这个策略是用hostname作为key值的，因此一个域名下的所有链接都会被放到同一个线程中去。如果对Heritrix分配URI时的策略进行改进，利用ELFhash算法把url尽量平均分部到各个队列中去，就能够用较多的线程同时抓取一个域名下的网页，速度将得到大大的提高。

具体的做法如下：

1．在org.archive.crawler.frontier下新建一个ELFHashQueueAssignmentPolicy类，这个类要注意继承自QueueAssignmentPolicy。

2．在该类下编写代码如下：

package org.archive.crawler.frontier;

import org.apache.jasper.logging.Logger;
import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.framework.CrawlController;

public class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolicy {
private static final Logger logger = Logger
.getLogger(ELFHashQueueAssignmentPolicy.class.getName());

public String getClassKey(CrawlController controller,

CandidateURI cauri) {

String uri = cauri.getUURI().toString();

long hash = ELFHash(uri);

String a = Long.toString(hash % 100);

return a;

}

public long ELFHash(String str) {

long hash = 0;

long x = 0;

for (int i = 0; i < str.length(); i++) {

hash = (hash << 4) + str.charAt(i);

if ((x = hash & 0xF0000000L) != 0) {

hash ^= (x >> 24);

hash &= ~x;

}

}

return (hash & 0x7FFFFFFF);

}
}

3. 修改/Heritrix/src/org/archive/crawler/frontier/AbstractFrontier.java 类的AbstractFrontier方法：

关键代码段是：

   Stringqueue Str = System.getProperty(AbstractFrontier.class.getName()+
                 "."+ ATTR_QUEUE_ASSIGNMENT_POLICY,