初学scrapy中,以为在settings.py中的USER_AGENT = 'xxxx' 设置随机的User-Agent(UA)可以达到每次请求都有不同的UA的效果.>>>>>其实不是,这只能在每次运行时随机调用其中的一个UA.(看图)
(在spider中打印User-Agent看看究竟)
(可以看到每次运行scrapy时会有不同的User-Agent)
(改改代码,设置一下回调,看看能不能打印出两条User-Agent)
(打印结果很明确了,两次都是同一个User-Agent,原因如下)
因为,运行(scrapy crawl xxxx)时,scrapy引擎传达发送请求的任务给scheduler调度器,此时scheduler将请求入队列,发给Downloader下载器,取获取目标页面的response响应,Downloader