- 博客(1)
- 收藏
- 关注
转载 Nutch的Hadoop方式爬取效率优化
下面这些是潜在的影响爬取效率的内容(官方资料翻译):1)DNS设置 2)你的爬虫数量,太多或太少 3)带宽限制 4)每一主机的线程数 5)要抓取的urls的分配不均匀 6) robots.txt中的高爬取延时(通常和urls的分配不均匀同时出现) 7)有很多比较慢的网页(通常和分配不均匀同时出现) 8)要下载太多的内容(PDF,大的html页面,通常和分配不均匀同时出现) 9)其它
2016-07-18 09:36:56 372
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人