nutch 爬虫
ly_bab
好好学习天天向上 !
展开
-
开源爬虫框架各有什么优缺点?
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下:上面说的爬虫,基本可以分3类: 1.分布式爬虫:Nutch 2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector 3. 非JAVA单机爬虫:scrapy 第一类:分布式爬虫 爬虫使用分布式,主要是解决转载 2016-05-15 17:50:58 · 862 阅读 · 0 评论 -
Nutch的Hadoop方式爬取效率优化
下面这些是潜在的影响爬取效率的内容(官方资料翻译): 1)DNS设置 2)你的爬虫数量,太多或太少 3)带宽限制 4)每一主机的线程数 5)要抓取的urls的分配不均匀 6) robots.txt中的高爬取延时(通常和urls的分配不均匀同时出现) 7)有很多比较慢的网页(通常和分配不均匀同时出现) 8)要下载太多的内容(PDF,大的html页面,通常和分配不均匀同时出现)转载 2016-05-20 13:57:29 · 1075 阅读 · 0 评论