heritrix
文章平均质量分 58
iteye_3946
这个作者很懒,什么都没留下…
展开
-
如何安装heritrix3
使用svn,从sourceforget.net 上checkout 项目 https://archive-crawler.svn.sourceforge.net/svnroot/archive-crawler/trunk/heritrix3Especially if you're customizing Heritrix (as seems to be the case from ...2010-08-23 18:22:11 · 84 阅读 · 0 评论 -
heritrix queue 分配策略
最近用heritrix 爬取网站, 发现很慢,heritrix 的QUEUE的分配策略 会影响速度, 比如用HostnameQueueAssignmentPolicy, 一个网站只分配一个Queue, 如果这个网站有很多页面要爬取, 这些页面全部放到一个queue里面,很多页面就会阻塞在这个Queue里, 要经过很长时间才能处理。 相比之下, 对一个网站的爬取用S...2014-04-22 23:50:09 · 149 阅读 · 0 评论 -
heritrix ELFHash多线程抓取
1.添加了org.archive.crawler.frontier.ELFHashQueueAssignmentPolicy.java [quote]public class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolicy {private static final Logger logger = Logger...2010-07-17 12:50:20 · 87 阅读 · 0 评论 -
各类网络spider蜘蛛User-Agent标识
网易 yodao 有道: Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/ ; )Yaodao其它: Mozilla/5.0 (compatible;YodaoBot-Reader/1.0;http://www.yodao.com/help/webmaster/spider/;1...原创 2010-07-13 14:38:14 · 790 阅读 · 0 评论 -
Heritrix中的SURT和SurtPrefixedDecideRule
在Heritrix中,如果我们需要抓取指定host的网页,需要用到SurtPrefixedDecideRule这个规则。这里根据Heritrix的文档,解释一下SURT。SURT全称是Sort-friendly URI Reordering Transform。目的是将一个URL转换成更方便的格式进行处理。....SURT类可以将下面这种形式的URL:...2010-06-27 03:29:18 · 112 阅读 · 0 评论 -
在Eclipse中构建Heritrix1.14.4
在Eclipse中构建Heritrix 这里采用的是Heritrix 1.14.4(2010年5月10日的版本 目前来看是最新版本) 1.首先从http://sourceforge.net/projects/archive-crawler/ 中下载 heritrix-1.14.4.zip heritrix-1.14.4-src.zip 2.在Eclipse 中创建一...2010-06-26 11:02:16 · 82 阅读 · 0 评论 -
heritrix3源码分析(outbound 和inbound)
heritrix3 与heritrix1.14 相比有很大不同, heritrix3 定义了一种阻塞的FIFO queue, 属于典型的生产消费者模型AbstractFrontier 中定义了2个 容器, inbound 和outbound inbound 容器存储的是那些即将要处理的crawlUrI, heritrix 爬取到的链接, 准备处理的链接都是先放在inbound ...2010-12-03 21:40:27 · 165 阅读 · 0 评论 -
超棒的 HTML 解析器 jsoup 1.4.1 发布
该版本包含一些新的功能,例如从输入流中解析HTML、DOM克隆、:not() 伪CSS的选择器;同时也修复了一些bug,提升了稳定性;改进了HTTP的连接处理和更强的文档规范化。jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。jsoup的主要功能...原创 2010-12-01 12:17:05 · 97 阅读 · 0 评论 -
Heritrix 插件 DeDuplicator
DeDuplicator for Heritrix 3 - 27/07/2010Version 3.0.0-SNAPSHOT-20100727 is now available here.This version is compiled against Heritrix 3.0.0.It also updates to use Lucene 3.0.2 (from 2....2010-11-30 17:31:10 · 129 阅读 · 0 评论 -
heritrix 提高抓取速度
最近一直用heritrix爬取网站, 晚上heritrix一直运行着, 但奇怪的是heritrix 抓取速度非常慢, 抓取一个网站, 用了8个多小时, 竟然没有运行完。 于是根据LOG 分析了一下慢的原因 -----===== SNOOZED QUEUES =====-----SNOOZED#0:Queue us,imageshack,img245,+2 (p1) 1 i...2010-11-21 19:18:58 · 156 阅读 · 0 评论 -
lucene3 分词器的使用
lucene3 中分词的一个例子 import java.io.IOException;import java.io.StringReader;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.luce...2010-11-21 13:05:18 · 106 阅读 · 0 评论 -
关于Heritrix的Extractor中文乱码
继承从org.archive.crawler.extractor.Extractor的子类,在extract方法中可以从参数CrawlURI中取出要解析的内容。 curi.getHttpRecorder().getReplayCharSequence.toString() 有中文时,不做处理会输出乱码。可以在取到的HttpRecorder后设置编码: ...2010-09-04 14:18:21 · 142 阅读 · 0 评论 -
heritrix 用CRONTAB定时执行
Heritrix is relatively easy to automate at the command line using the cron program normally found on Unix and Linux systems. The program crontab can be used to create a schedule for “cron jobs,” whic...2013-01-28 16:50:19 · 88 阅读 · 0 评论