Heritrix爬虫说明
概述
安装部署好的Heritrix爬虫总共有28个jar包(不包括系统jar包)。关于Heritrix的安装配置及使用方法在文档末尾给出网址链接。在Eclipse中安装配置完成后,运行Heritrix.java启动爬虫,在浏览器地址栏中输入:localhost:8080进入UI任务创建、参数配置界面进行各项操作。
类包说明
1包说明
序号 |
包名 |
说明 |
1 |
org.apache.commons.httpclient |
封装了apache的httpclient用于Fetch网页内容 |
2 |
org.apache.commons.httpclient.cookie |
封装了apache的httpclient用于Fetch网页内容,这里主要处理Cookie |
3 |
org.apache.commons.pool.impl |
封装了apache的httpclient用于Fetch网页内容,还待研究 |
4 |
org.archive.crawler |
Heritrix程序运行的入口包,如Heritrix运行可以直接抓取 |
5 |
org.archive.crawler.admin |
Heritrix的管理包,比如CrawlJob表示一个抓取任务job,CrawlJobHandler管理JOB,以及日志统计等 |
6 |
org.archive.crawler.admin.ui |
服务于UI管理界面,如Job参数的设置 |
7 |
org.archive.crawler.datamodel |
Heritrix的数据模型包,如在Heritrix中代表一个URL的CandidateURI |
8 |
org.archive.crawler.datamodel.credential |
管理Heritrix数据模型中的凭证,如抓取某些网站需要用户名和密码 |
9 |
org.archive.crawler.deciderules |
Heritrix的规则包,如决定哪些URL可以抓取可以调度 |
10 |
org.archive.crawler.deciderules.recrawl |
还待研究,应该是决定哪些URL需要重新抓取 |
11 |
org.archive.crawler.event |
事件管理,如Heritrix的暂停、重启、停止等 |
12 |
org.archive.crawler.extractor |
Heritrix的造血器,通过它抽取新的URL再次进行抓取 |
13 |
org.archive.crawler.fetcher |
Heritrix的获取包,如获取HTTP、DNS、FTP数据 |
14 |
org.archive.crawler.filter |
Heritrix的过滤器,如配合Rule过滤一些不要的URL |
15 |
org.archive.crawler.framework |
Heritrix的框架包,存放一些核心类,一般是父类,如Heritrix控制类CrawlController;调度器类Frontier |
16 |
org.archive.crawler.framework.exceptions |
Heritrix框架异常包,通常这里的异常抛出会导致Heritrix的停止 |
17 |
org.archive.crawler.frontier |
Heritrix的调度器,决定抓取哪个URL |
18 |
org.archive.crawler.io |
Heritrix的IO格式包,感觉取名不合理,这里只是定义一些格式,如统计数据的格式,错误日志的格式 |
19 |
org.archive.crawler.postprocessor |
辅助处理器包,感觉取名也不合理,这里只是对处理URL前后进行一些处理,如URL重定向 |
20 |
org.archive.crawler.prefetch |
Heritrix的预处理器包,如确定一个URL是否已经解析了DNS |
21 |
org.archive.crawler.processor |
Heritrix处理器 |
22 |
org.archive.crawler.processor.recrawl |
|
23 |
org.archive.crawler.scope |
Heritrix抓取范围管理,如种子 |
24 |
org.archive.crawler.selftest |
管理Heritrix的Web工程self.war |
25 |
org.archive.crawler.settings |
管理Heritrix配置文件order.xml中的各项配置 |
26 |
org.archive.crawler.settings.refinements |
管理Heritrix自己对数据格式的标准,如时间格式 |
27 |
org.archive.crawler.url |
还没怎么接触到,待研究 |
28 |