爬虫
文章平均质量分 81
rj597306518
这个作者很懒,什么都没留下…
展开
-
开源爬虫: Heritrix 1.14.4 安装/使用
http://blog.csdn.net/ljj657137723/article/details/45484793Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行。目前 Heritrix 的最新版本是 3转载 2017-06-19 23:04:43 · 1896 阅读 · 0 评论 -
为Heritrix定制自己的QueueAssignmentPolicy
Heritrix使用了Berkeley DB来构建链接队列。这些队列被置放于BdbMultipleWorkQueues中时,总是先给予一个Key,然后将那些Key值相同的链接放在一起, 成为一个队列,也就是一个Queue。在Heritrix中,为每个队列赋上Key值的策略,也就是它的queue-assignment-policy。 Heritrix默认使用的queue-assignment转载 2017-06-19 23:08:36 · 278 阅读 · 0 评论 -
扩展FrontierScheduler来抓取特定的内容
FrontierScheduler是一个PostProcessor,它的作用是将在Extractor中所分析得出的链接加入到Frontier中,以待继续处理。先来看一下FrontierScheduler的innerProcess()方法,代码如下。protected void innerProcess(final CrawlURI curi) { if (LOGGER.isLog原创 2017-06-25 20:23:39 · 273 阅读 · 0 评论 -
扩展和定制Heritrix之Extractor
转至:http://www.07net01.com/zhishi/474980.html10.3 扩展和定制Heritrix在前面两节中,向读者介绍了Heritrix的启动、创建任务、抓取网页、组件结构。但是,读者应该也可以明显的看出,如果不用Heritrix抓取和分析网页的行为进行一定的控制,它是无法达到要求的。对Heritrix的行为进行控制,是要建立在对其架构充分了解的基础之上的转载 2017-06-25 21:01:46 · 764 阅读 · 0 评论 -
heritrix多线程 加速(定制Queue-assignment-policy两个问题)
10.3.2 定制Queue-assignment-policy两个问题首先提出两个问题:l 什么是Queue-assignment-policyl 为什么要改变Queue-assignment-policy在10.2节中,向读者介绍过了 Heritrix的架构。其中,讲解了Heritrix使用了Berkeley DB来构建链接队列。这些队列被置放于BdbMultipleWorkQ原创 2017-10-06 19:43:20 · 675 阅读 · 0 评论