Heritrix
文章平均质量分 84
iteye_1364
这个作者很懒,什么都没留下…
展开
-
驯服爬虫 Heritrix
驯服爬虫 Heritrix坛主前些日子罗列一下所有的开源爬虫! 此帖 : http://www.opensourceforce.org/thread-349-1-1.html我就来具体介绍一下怎么使用吧! Heritrix 它不单单是一个爬虫,他还它的 Web 控制端,是通过启动 Web 来控制爬虫的行为的怎么使用 Web 启动来控制就看这里吧 ! 我...原创 2011-05-09 23:02:57 · 123 阅读 · 0 评论 -
heritrix配置篇
前对Heritrix做了初步选型测试,有了一些总结: 1.关于安装: 目前的版本号为1.12.1,官网地址为 。常规安装,即解压到相关目录,之后配置系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。 2.安装的后续工作: 将 %HERITRIX_HOME%\heritr...原创 2011-05-09 23:08:28 · 105 阅读 · 0 评论 -
Heritrix3.0教程 使用入门(一) 下载安装与运行
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.htmlHeritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.1.下载,下载地址:htt...原创 2011-05-09 23:11:22 · 246 阅读 · 0 评论 -
Heritrix3.0教程 使用入门(二) 开始抓取
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-2.html上一篇博客介绍了,Heritrix3.0的下载,安装以及启动,可以通过UI去配置,和控制抓取任务.这一篇博将讲述,如何在Heritrix上创建抓取任务(CrawlJob)并运行.首先创建抓取,本可以通过WEB界面来创建,但有时会出现一些莫名奇妙的问题,我这...原创 2011-05-09 23:13:33 · 196 阅读 · 0 评论 -
Heritrix3.0教程 使用入门(三) 配置文件crawler-beans.cxml介绍
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-4.html可以说crawler-beans.cxml可以主导整个Heritrix的抓取.不同于Heritrix1.x版本的order.xml 是,crawler-beans.cxml采用Spring来管理.里面的配置都是一个个bean.所以无论从配置上,耦合上,动态控...原创 2011-05-09 23:14:29 · 253 阅读 · 0 评论 -
Heritrix3.0教程 使用教程(三) CrawlJob控制台界面(一) 大概介绍
本博客属原创文章,转载请注明出处: http://www.yun5u.com/articles/heritrix3-5.html我觉得Heritrix很直观的一点就是有控制台,但以前我忽略了这个功能,直接代码启动Heritrix,然后放在Tomcat里.后期才慢慢发现一个UI界面的价值.可以很方便的获知抓取情况,甚至完全在千里之外控制它的抓取.其实慢慢的发现很多开源框架都会有一个UI界面....原创 2011-05-09 23:20:06 · 194 阅读 · 0 评论 -
Heritrix3.0教程 使用入门(四) 载入种子的四种方式
Heritrix3.0新特性一大亮点就是,相比以前版本载入种子更灵活(甚至你可以动态载入种子),同时可以载入N个种子.以前版本载入种子是全部加载到内存,而一旦种子过多,那容易导致内存溢出.而新版本会分批次写入硬盘(通过调度器写入).所以避免了这个问题.下面就说一下Heritrix3.0载入种子的四种方式,分别是:直接载入,通过seeds.txt载入,通过ActionDirectory动态载...原创 2011-05-09 23:20:53 · 139 阅读 · 0 评论 -
Heritrix3.0教程 源码分析(一) Heritrix 3.0新特性新功能介绍
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-3.htmlHeritrix3.0新特性很给力.从性能,功能,灵活配置和灵活控制上都改进很大,可以说更适合垂直抓取了一.英文原文,点击查看1. Ability to run multiple crawl jobs simultaneously. ...原创 2011-05-09 23:26:32 · 185 阅读 · 0 评论 -
heritrix3 伪装成GOOGLE进行爬取
伪装成搜索引擎蜘蛛google bot访问需网站, 这样能防止爬虫被封在crawler-beans.cxml 中修改metadata成下面<!-- CRAWL METADATA: including identification of crawler/operator --> <bean id="metadata" class="org.archive.modules...原创 2011-05-09 23:27:54 · 104 阅读 · 0 评论