开发环境
- Python第三方库:lxml、Twisted、pywin32、scrapy
- Python 版本:python-3.5.0-amd64
- PyCharm软件版本:pycharm-professional-2016.1.4
- 电脑系统:Windows 10 64位
如果你还没有搭建好开发环境,请到这篇博客。
所有的设置都是在scrapy爬虫项目中的settings.py
文件中进行设置。
Step 1 . 设置爬虫不遵循 robots.txt
协议
# Obey robots.txt rules
ROBOTSTXT_OBEY = False