开源JAVA爬虫crawler4j源码分析 - 2 开始使用crawler4j

最新推荐文章于 2024-04-20 23:51:13 发布

Kevin龙

最新推荐文章于 2024-04-20 23:51:13 发布

阅读量1w

点赞数 2

分类专栏： crawler4j JAVA 文章标签：爬虫 crawler4j JAVA爬虫

本文链接：https://blog.csdn.net/longzuyuan/article/details/17419233

版权

使用crawler4j非常简单，源码中已经包涵了很多的例子，并且是直接就可以运行的。

首先运行pom.xml，或者是直接下载依赖库：

https://code.google.com/p/crawler4j/downloads/detail?name=crawler4j-3.5-dependencies.zip&can=2&q=

1. 运行Example

打开edu.uci.ics.crawler4j.examples.basic下的BasicCrawlController，就一个main方法，注释掉前3行，改下目录和线程数：

/*if (args.length != 2) {
 System.out.println("Needed parameters: ");
System.out.println("\t rootFolder (it will contain intermediate crawl data)");
System.out.println("\t numberOfCralwers (number of concurrent threads)");
return;
}*/
/* * 爬取时数据临时存放目录. */
String crawlStorageFolder = &

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Kevin龙

关注关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
9
评论
开源JAVA爬虫crawler4j源码分析 - 2 开始使用crawler4j

使用crawler4j非常简单，源码中已经包涵了很多的例子，并且是直接就可以运行的。1. 运行Example2. 爬取指定网站3. 输出指定信息4. 爬取指定规则页面5. 爬取指定数量和深度的页面
复制链接

扫一扫