让爬虫更加友好

原创 2016年05月30日 20:42:41

        写一个爬虫去互联网上采集数据这件事情,看似好像对别人没有坏处,其实如果爬虫不断的去爬数据的话,会给爬取对象的网站造成很大的压力。所以我们往往会限制爬虫爬取的速度。

        之前最原始不用框架爬取交大的图书馆数据,后来整个实验室不能上图书馆的网了;使用了scrapy框架之后,没有做限速设置,后来又这样了。这次又改了一下。

        在spider同级目录下有一个settings.py文件,其中有一个配置,AUTOTHROTTLE_ENABLED=True.默认情况下这个是被注释掉的。这个功能一打开,scrapy会自动检测最合适的限制速度,很神奇的机制哦。

        于是我又把我的爬虫放出去了,看看还会不会被屏蔽。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

如何创建对搜索引擎更加友好的内容

在互联网上让你的声音被广泛的听见并不容易。这可能就想你在一个拥挤的大街上即兴演讲,挥舞着双手来引起路人的注意。在你选择的主题中你可能是一位专家,有着过人的智慧,但是你要怎么让人们停下足够长的时间来听你...

GNOME的文件管理器将对用户变得更加友好

本文将为读者简短介绍即将发布的Nautilus都实现了哪些新的设计功能,这些新功能也将成为GNOME3.12桌面环境的组成部分。...

实现Ajax友好的搜索引擎爬虫-jrex,gecko

现在web2.0如火如荼,Ajax技术获得了广大的运用,比如咱网易博客,搜狐博客等,仔细研究下这些网站,你会发现他们对搜索引擎很不友好,因为什么 呢,因为这些网站都使用了后加载技术,就是说是在JS里面...

让ajax更加友好,实时显示后台处理进度。

====================================================== 注:本文源代码点此下载 =============================...

网络爬虫二十四-通过查阅RFC文档扩充更加复杂的功能

HTTP是一种很简单的请求、响应式协议,客户端发送一个请求、服务器返回一个响应。HTTP 1.1 版本规范由 RFC2616 定义。了解了 HTTP请求、响应消息在TCP数据流中的格式,很容易使用纯 ...

CSS美化友好的表格

  • 2013年09月12日 15:39
  • 12KB
  • 下载

AngularJS中的友好URL:移除URL中的# 遇到的那些坑

用了AngularJS一段时间啦,应项目需要,要移除URL中的那些#号,网上搜了下方法很简单 http://developer.51cto.com/art/201406/443898.htm ...
  • ice526
  • ice526
  • 2015年05月13日 11:09
  • 9426

vim 配置 界面友好

  • 2012年09月23日 20:48
  • 1.89MB
  • 下载

leapFTP 友好的用户界面

  • 2011年11月23日 11:11
  • 2.72MB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:让爬虫更加友好
举报原因:
原因补充:

(最多只允许输入30个字)