让爬虫更加友好

        写一个爬虫去互联网上采集数据这件事情,看似好像对别人没有坏处,其实如果爬虫不断的去爬数据的话,会给爬取对象的网站造成很大的压力。所以我们往往会限制爬虫爬取的速度。

        之前最原始不用框架爬取交大的图书馆数据,后来整个实验室不能上图书馆的网了;使用了scrapy框架之后,没有做限速设置,后来又这样了。这次又改了一下。

        在spider同级目录下有一个settings.py文件,其中有一个配置,AUTOTHROTTLE_ENABLED=True.默认情况下这个是被注释掉的。这个功能一打开,scrapy会自动检测最合适的限制速度,很神奇的机制哦。

        于是我又把我的爬虫放出去了,看看还会不会被屏蔽。

阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qtlyx/article/details/51540888
个人分类: 网页爬虫
想对作者说点什么? 我来说一句

数据采集系统

2013年11月04日 38.87MB 下载

自定义界面绘制

2016年11月28日 12.43MB 下载

没有更多推荐了,返回首页

不良信息举报

让爬虫更加友好

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭