问题:
利用Scrapy框架爬伯乐在线的时候,涉及到图片下载,因为scrapy框架中内置有图片下载功能,所以没有另外写,直接使用。在settings.py中做了如下修改:
ITEM_PIPELINES = {
'Article.pipelines.ArticlePipeline': 300,
"scrapy.pipelines.images.ImagesPipeline": 1
}
程序跑起来很OK,但没有图片下载下来,一检查,发现存在这样的警告:
[scrapy.pipelines.files] WARNING: File (code: 400): Error downloading file from <GET xxx> referred in <None>
经排查,找到问题出现在请求头的设置部分:
DEFAULT_REQUEST_HEADERS = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 '