注:基于网上收集到的信息,未经代码试验过。
名称 | 分类 | 优点 | 缺点 | Git 评价 |
Apache Nutch | 搜索引擎 | 分布式(依赖hadoop),为搜索引擎设计 | 重量级,用于精抽取会低效,Nutch插件调试困难 | 老大级 |
Spiderman | 爬虫 | 微内核+插件式架构,重配置(无需写代码),多线程 | 用户太少 | star 525 | fork 326 |
webmagic | 爬虫 | 使用了HttpClient,支持多线程抓取,分布式抓取 | JS动态加载要使用如PhantomJS、Selenium,用户太少 | 荐,star 406 | fork 225 |
WebCollector 2 | 爬虫 | 可用于分页及AJAX的遍历策略,集成selenium从而支持JSÿ |