我们在运用scrapy shell调试的时候,通常会遇到返回的response的状态码为302,这是因为没有加User_Agent的原因。比如爬取拉勾网的时候,没加请求头给我返回302重定向,如图:
所以我们可以在进行scrapy shell 调试的时候,加入User_Agent进行伪装:
scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/60.0" 你需要爬取的url
接着就可以正常进行网站的爬取了: