crawler4j 开源项目教程
crawler4jOpen Source Web Crawler for Java项目地址:https://gitcode.com/gh_mirrors/cr/crawler4j
1. 项目的目录结构及介绍
crawler4j 是一个用于网页爬取的开源项目,其目录结构如下:
crawler4j/
├── src/
│ ├── main/
│ │ ├── java/
│ │ │ ├── edu/
│ │ │ │ ├── uci/
│ │ │ │ │ ├── crawler4j/
│ │ │ │ │ │ ├── crawlercommons/
│ │ │ │ │ │ ├── fetcher/
│ │ │ │ │ │ ├── frontier/
│ │ │ │ │ │ ├── html/
│ │ │ │ │ │ ├── robots/
│ │ │ │ │ │ ├── url/
│ │ │ │ │ │ ├── CrawlConfig.java
│ │ │ │ │ │ ├── CrawlController.java
│ │ │ │ │ │ ├── Page.java
│ │ │ │ │ │ ├── PageFetcher.java
│ │ │ │ │ │ ├── RobotstxtServer.java
│ │ │ │ │ │ ├── WebCrawler.java
│ │ │ ├── Crawler4jExample.java
│ │ ├── resources/
│ │ │ ├── crawler4j.properties
│ ├── test/
│ │ ├── java/
│ │ │ ├── edu/
│ │ │ │ ├── uci/
│ │ │ │ │ ├── crawler4j/
│ │ │ │ │ │ ├── CrawlTest.java
│ │ ├── resources/
│ │ │ ├── crawler4j.test.properties
├── .gitignore
├── LICENSE
├── README.md
├── pom.xml
主要目录和文件介绍:
-
src/main/java/edu/uci/crawler4j/
:包含项目的主要代码文件。CrawlConfig.java
:爬虫配置类。CrawlController.java
:爬虫控制类。Page.java
:页面类。PageFetcher.java
:页面抓取类。RobotstxtServer.java
:处理 robots.txt 文件的类。WebCrawler.java
:爬虫抽象类。Crawler4jExample.java
:示例爬虫类。
-
src/main/resources/
:包含项目的配置文件。crawler4j.properties
:爬虫配置文件。
-
src/test/
:包含项目的测试代码和资源文件。
2. 项目的启动文件介绍
项目的启动文件是 Crawler4jExample.java
,位于 src/main/java/
目录下。该文件是一个示例爬虫类,展示了如何使用 crawler4j 进行网页爬取。
启动文件主要代码:
public class Crawler4jExample {
public static void main(String[] args) throws Exception {
String crawlStorageFolder = "/data/crawl/root";
int numberOfCrawlers = 7;
CrawlConfig config = new CrawlConfig();
config.setCrawlStorageFolder(crawlStorageFolder);
PageFetcher pageFetcher = new PageFetcher(config);
RobotstxtServer robotstxtServer = new RobotstxtServer(config);
CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer);
controller.addSeed("http://www.example.com/");
controller.start(MyCrawler.class, numberOfCrawlers);
}
}
3. 项目的配置文件介绍
项目的配置文件是 crawler4j.properties
,位于 src/main/resources/
目录下。该文件包含了爬虫的各种配置参数。
配置文件示例:
# 爬虫存储文件夹
crawlStorageFolder=/data/crawl/root
# 爬虫线程数
numberOfCrawlers=7
#
crawler4jOpen Source Web Crawler for Java项目地址:https://gitcode.com/gh_mirrors/cr/crawler4j