heritrix
小松悦读会 | kevinelstri
小松悦读会,用心阅读,执着专注!
展开
-
【垂直搜索引擎搭建04】heritrix:扩展Extractor
解析一个网页时,常常需要有特定的需要,而对于Extractor而言,是将网站上所有网页全部抓取下来,所以通过扩展Extractor来抓取特定的网页。 Extractor:package org.archive.crawler.extractor; /* *Extractor:抓取网页时,将网页上的所有信息都抓取下来,没有任何的格式选择 */ import java.util.logging.Le原创 2016-08-14 15:56:19 · 932 阅读 · 0 评论 -
【垂直搜索引擎搭建06】heritrix:取消Robot.txt限制
Robot.txt是一种专门用于搜索引擎网络爬虫的文件,当构建一个网站时,如果希望该网站的内容被搜索引擎收录,就可以在网站中创建一个robot.txt文件,在这个文件中,声明该网站不想被robot访问的部分。heritrix在 其说明文档中,表明它是一个完全遵守robot.txt协议的网络爬虫。但是如果一个网站并没有放置robot.txt,heritrix仍然花费大量时间去访问这个文件,这样就降原创 2016-08-14 16:26:51 · 1169 阅读 · 0 评论 -
【垂直搜索引擎搭建05】heritrix:Queue-assignment-policy
Heritrix使用了Berkeley DB来构建链接队列。这些队列被置放于BdbMultipleWorkQueues中时,总是先给予一个Key,然后将那些Key值相同的链接放在一起, 成为一个队列,也就是一个Queue。在Heritrix中,为每个队列赋上Key值的策略,也就是它的queue-assignment-policy。Heritrix默认使用的queue-assignment-polic原创 2016-08-14 16:12:47 · 550 阅读 · 0 评论 -
【垂直搜索引擎搭建02】heritrix启动
一、dos命令下运行程序 (1)下载heritrix (2)建立一个runheritrix.bat文件 runheritrix.bat文件代码:%~d0 cd %~dp0 java -Xmx512m -Dheritrix.home=./heritrix -cp "./heritrix/heritrix-1.14.4.jar;./heritrix/lib/ant-1.6.原创 2016-08-12 21:48:53 · 691 阅读 · 0 评论 -
【垂直搜索引擎搭建01】heritrix环境搭建
在eclipse上配置heritrix Eclipse 配置 Heritrix 1.14.4的配置过程如下: 首先从http://sourceforge.net/projects/archive-crawler/ 中下载 heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip(Windows) 在Eclipse 中创建一个java project的工程(可原创 2016-08-12 20:53:25 · 639 阅读 · 0 评论 -
【Heritrix 04】heritrix.properties+java.util.logging.Logger
package heritrix;public class heritrix_properties { public static void main(String[] args) { System.out.println("配置参数"); } /* * ------------------------------------【heritrix.prop原创 2016-07-19 15:46:26 · 946 阅读 · 0 评论 -
【Heritrix 03】heritrix_dmesg.log
package heritrix;public class heritrix_dmesg { public static void main(String[] args) { System.out.println("heritrix的启动信息!"); } /* * ---------------------------------【heritrix_dm原创 2016-07-19 15:42:30 · 626 阅读 · 0 评论 -
【Heritrix 02】Heritrix包介绍
package heritrix;public class heritrixSourceAnalyzer01 { public static void main(String[] args) { System.out.println("Heritrix源码解读!"); } /* * ----------------------------------【H原创 2016-07-19 15:40:30 · 466 阅读 · 0 评论 -
【Heritrix 01】Heritrix ecplise下配置安装存在的问题
问题: 1、端口的问题,在配置中修改端口 2、错误500的问题,缺少文件 3、占用问题,重启eclipse解决方案: 1、由于计算机上安装有各种各样的服务,会使得许多端口得到占用,而heritrix在默认配置下端口是8080,这就会产生端口的忙碌状态,是的heritrix一直处于等待状态,而无法响应; 所以在配置heritrix首先对端原创 2016-07-18 15:34:53 · 474 阅读 · 0 评论 -
【垂直搜索引擎搭建03】heritrix:扩展FontierScheduler抓取特定的信息
一、FontierScheduler FontierScheduler是一个 PostProcessor,它的作用是将在Extractor中所分析得出的链接加入到 Frontier中,以待继续处理。 FontierScheduler:/* FrontierScheduler */ package org.archive.crawler.postprocessor;import java.uti原创 2016-08-14 15:33:56 · 636 阅读 · 0 评论 -
【垂直搜索引擎搭建07】heritrix工具化
一、免登陆 在每一次登陆heritrix都需要进行输入用户名和密码,而在使用过程中,为了方便,可以设置为免登陆状态。在webapps文件夹下,找到admin.war文件 解压admin.war文件,并打开文件夹WEB-INF 打开web.xml文件,修改.jsp为.do,这样就不能阻止jsp文件的访问了,就不会调用login.jsp,也就不需要进行用户名密码了 重新将文件夹打包成war文件原创 2016-08-14 17:00:18 · 590 阅读 · 0 评论