头部请求影响到网站的性能和用户体验。从完全的用户体验上讲很多网站在对图片、页面大小处理后还是遭到很多用户的投诉说网站访问速度很慢,明明很小的东西却需要load很长时间。
对于搜索引擎来说,它放出去的spider也是要经历用户访问的动作。爬虫以多、快、好、省的策略来迅速完成对网站的捕捉,这样的窘困对爬虫也造成同样的影响。
高效的爬虫访问不是高频率的访问而是由一定规律的,重建索引的过程。有更新的时候爬虫来了,没有更新时不要大量的爬页面;这才是正途。
304 Not Modified是现在比较通用的做法;
Robbin有一篇博文最这块做了比较详细的介绍。http://robbin.iteye.com/blog/462476
对于搜索引擎来说,它放出去的spider也是要经历用户访问的动作。爬虫以多、快、好、省的策略来迅速完成对网站的捕捉,这样的窘困对爬虫也造成同样的影响。
高效的爬虫访问不是高频率的访问而是由一定规律的,重建索引的过程。有更新的时候爬虫来了,没有更新时不要大量的爬页面;这才是正途。
304 Not Modified是现在比较通用的做法;
Robbin有一篇博文最这块做了比较详细的介绍。http://robbin.iteye.com/blog/462476