java 爬虫框架收集

java crawler framework

Author : Janloong Do_O

1、crawler4j https://github.com/yasserg/crawler4j 拥有爬虫的核心功能,所以上手极为简单,几分钟就可以写一个多线程爬虫程序。

2、雅虎开源的web爬虫工具 https://github.com/yahoo/anthelion3https://github.com/code4craft/webmagic · GitHub ,国人 黄亿华 先生的良心大作。文档在这里 http://webmagic.io/docs/zh/4、nutch https://github.com/apache/nutch apache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块。

5、https://github.com/ShenJianShou/crawler_samples 没有找到源代码,属于云爬虫;jsoup包含http工具以及分析页面的工具包 https://jsoup.org/okhttpshttp工具包

6、Spiderman http://git.oschina.net/l-weiwei/Spiderman2 最后更新一个月前

7、SeimiCrawler https://github.com/zhegexiaohuozi/SeimiCrawler 最后更新一个月前神射手

8、WebCollector https://github.com/CrawlScript/WebCollector 最后更新四个月前

9、Heritrix https://github.com/internetarchive/heritrix3 比较成熟,用的人比较多

10、Gecco https://github.com/xtuhcy/gecco

11、WebMagic https://github.com/code4craft/webmagic (个人使用过这个)

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值