heritrix queue 分配策略

  最近用heritrix 爬取网站, 发现很慢, heritrix 的QUEUE的分配策略 会影响速度,  比如用HostnameQueueAssignmentPolicy, 一个网站只分配一个Queue,  如果这个网站有很多页面要爬取, 这些页面全部放到一个queue里面, 很...

2014-04-22 23:50:09

阅读数:12

评论数:0

heritrix 用CRONTAB定时执行

Heritrix is relatively easy to automate at the command line using the cron program normally found on Unix and Linux systems. The program crontab can...

2013-01-28 16:50:19

阅读数:5

评论数:0

heritrix3源码分析(outbound 和inbound)

heritrix3 与heritrix1.14 相比有很大不同, heritrix3 定义了一种阻塞的FIFO queue, 属于典型的生产消费者模型 AbstractFrontier 中定义了2个 容器, inbound 和outbound inbound 容器存储的是那些即将...

2010-12-03 21:40:27

阅读数:6

评论数:0

超棒的 HTML 解析器 jsoup 1.4.1 发布

该版本包含一些新的功能,例如从输入流中解析HTML、DOM克隆、:not() 伪CSS的选择器;同时也修复了一些bug,提升了稳定性;改进了HTTP的连接处理和更强的文档规范化。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的...

2010-12-01 12:17:05

阅读数:7

评论数:0

Heritrix 插件 DeDuplicator

DeDuplicator for Heritrix 3 - 27/07/2010 Version 3.0.0-SNAPSHOT-20100727 is now available here. This version is compiled against Heritrix 3.0...

2010-11-30 17:31:10

阅读数:5

评论数:0

heritrix 提高抓取速度

最近一直用heritrix爬取网站,  晚上heritrix一直运行着, 但奇怪的是heritrix 抓取速度非常慢, 抓取一个网站, 用了8个多小时, 竟然没有运行完。 于是根据LOG 分析了一下慢的原因   -----===== SNOOZED QUEUES =====----- SN...

2010-11-21 19:18:58

阅读数:21

评论数:0

lucene3 分词器的使用

lucene3 中分词的一个例子     import java.io.IOException; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.l...

2010-11-21 13:05:18

阅读数:6

评论数:0

关于Heritrix的Extractor中文乱码

继承从org.archive.crawler.extractor.Extractor的子类,在extract方法中可以从参数CrawlURI中取出要解析的内容。 curi.getHttpRecorder().getReplayCharSequence.toString() ...

2010-09-04 14:18:21

阅读数:9

评论数:0

如何安装heritrix3

使用svn,从sourceforget.net 上checkout 项目 https://archive-crawler.svn.sourceforge.net/svnroot/archive-crawler/trunk/heritrix3 Especially if you're cu...

2010-08-23 18:22:11

阅读数:7

评论数:0

heritrix ELFHash多线程抓取

1.添加了org.archive.crawler.frontier.ELFHashQueueAssignmentPolicy.java [quote] public class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolic...

2010-07-17 12:50:20

阅读数:5

评论数:0

各类网络spider蜘蛛User-Agent标识

网易 yodao 有道: Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/ ; ) Yaodao其它: Mozilla/5.0 (compatible;YodaoBot-Reade...

2010-07-13 14:38:14

阅读数:16

评论数:0

Heritrix中的SURT和SurtPrefixedDecideRule

在Heritrix中,如果我们需要抓取指定host的网页,需要用到SurtPrefixedDecideRule这个规则。 这里根据Heritrix的文档,解释一下SURT。 SURT全称是Sort-friendly URI Reordering Transform。 目的是将一个...

2010-06-27 03:29:18

阅读数:10

评论数:0

在Eclipse中构建Heritrix1.14.4

在Eclipse中构建Heritrix 这里采用的是Heritrix 1.14.4(2010年5月10日的版本 目前来看是最新版本) 1.首先从http://sourceforge.net/projects/archive-crawler/ 中下载 heritrix-1.14....

2010-06-26 11:02:16

阅读数:5

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭