开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下:上面说的爬虫,基本可以分3类
1.分布式爬虫:Nutch2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector3. 非JAVA单机爬虫:scrapy第一类:分布式爬虫爬虫使用分布式,主要是解决两个问题:1)海量URL管理2)网速现在比较流行的分布式爬虫,是Apache的Nutch。但是对于大多数用户来说,Nutch是这
转载
2016-05-31 09:50:52 ·
11909 阅读 ·
0 评论