是用Scrapy Shell调试爬虫,测试jandan的是否发现,煎蛋网好像有简单的防爬功能。各种百度。总结一下
1.start_requests(self)添加user-agent字段
2.中间件方式。
但是上述方式都不能在shell中奏效,调试很不方便。
很简单;直接修改scrapy的user-agent默认值搞定。
settings/default-setting.py
246 #USER_AGENT = 'Scrapy/%s (+http://scrapy.org)' % import_module('scrapy').__version__
247 USER_AGENT = 'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0'
使用shell再次,发现已经可以正常访问html不会在出现403错误了。