在scrapy的project-setting中有一项设置
ROBOTSTXT_OBEY = True
当设定为True时,运行爬虫,爬虫会先去首页下找robot.txt文件并解析,弄明白网站允许搜索爬虫查看的目录区域
2019-06-14 16:50:22 [scrapy.core.engine] DEBUG: Crawled (404) <GET https://search.51job.com/robots.txt> (referer: None)
当设定为False后,就会省略这一步