![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Heritrix
文章平均质量分 85
sts1986
这个作者很懒,什么都没留下…
展开
-
扩展和定制Heritrix
转至:http://hi.baidu.com/z57354658/blog/item/9e7a50c3b8cfd05fb219a833.html 2009-11-30 14:25 10.3 扩展和定制Heritrix 在前面两节中,向读者介绍了Heritrix的启动、创建任务、抓取网页、组件结构。但是,读者应该也可以明显的看出,如果不用He...原创 2011-03-18 16:46:04 · 131 阅读 · 0 评论 -
利用 Heritrix 构建特定站点爬虫
简介: Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行,最后以抓取北京林业大学网站为例,介绍如何对其进行扩展,实现只抓取特定网站的页面。 <!-- <p class="ibm-no-print">...原创 2011-04-01 11:21:12 · 95 阅读 · 0 评论 -
为Heritrix定制自己的QueueAssignmentPolicy
文章转至 http://hi.baidu.com/waltertan/blog/item/4df01ff0686102d27831aa4d.html 为Heritrix定制自己的QueueAssignmentPolicy 2010-12-14 21:49 Heritrix使用了Berkeley DB来构建链接队列。这些队列被置放于BdbMultipleWorkQueues中时,总...原创 2011-04-01 11:23:05 · 106 阅读 · 0 评论 -
扩展和定制Heritrix2
文章转至 http://blog.csdn.net/fengbolaisearch/archive/2010/01/12/5178492.aspx 1. Heritrix 简介 Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为,另外,它还有一个命令行工具来供用...原创 2011-04-01 11:38:21 · 106 阅读 · 0 评论