crawler4j
文章平均质量分 84
Kevin龙
Just run !
展开
-
开源JAVA爬虫crawler4j源码分析 - 3 线程管理
一个网页爬虫,到底是怎样安全有效的管理线程的呢?原创 2013-12-20 15:51:17 · 4447 阅读 · 0 评论 -
开源JAVA爬虫crawler4j源码分析 - 4 URL管理、URL队列
爬虫在工作过程中,会有大量的URL需要存储和分配,如何高效的管理这些URL,是一个爬虫系统的重中之重。crawler4j默认运行最多每小时解析几千个URL,在修改过后可以达到每小时几十万个(后面的文章中介绍),这么多的URL,应该如何管理呢?原创 2013-12-24 15:43:17 · 6892 阅读 · 3 评论 -
开源JAVA爬虫crawler4j源码分析 - 2 开始使用crawler4j
使用crawler4j非常简单,源码中已经包涵了很多的例子,并且是直接就可以运行的。1. 运行Example2. 爬取指定网站3. 输出指定信息4. 爬取指定规则页面5. 爬取指定数量和深度的页面原创 2013-12-19 17:56:11 · 10097 阅读 · 9 评论 -
开源JAVA爬虫crawler4j源码分析 - 1 开个头
最近有需要用到爬虫程序,翻看了一下互联网上关于爬虫的一些介绍及一些开源的网络爬虫:http://www.open-open.com/68.htm发现用nutch的人比较多,随即拿来使用。之后觉得nutch太过复杂,适合大规模海量数据的爬取,我目前还没有这种需求,留着以后再做研究!逐个看了看其它几个小的开源爬虫,发现太老不更新就是文档太少。crawler4j是一个短小精悍原创 2013-05-07 15:56:46 · 7372 阅读 · 15 评论