关于拉勾网的爬虫,课程上讲解的视频在正在执行的时候会出现:DEBUG: Redirecting (302) to <GET https://passport.lagou.com/login/login.html?msg=validation&uStatus=2&clientIp=202.113.176.54> from <GET https://www.lagou.com/jobs/3574552.html>,这个302错误,查找了一些别人的博客https://blog.csdn.net/qq_26582987/article/details/79703317上面的相关的解决方式,即加上在每个请求上加上cookies和headers即可,但是在作者的代码上出现
def start_requests(self):
self.cookies = selenium_login.login_lagou()
print (type(self.cookies))
print(self.headers)
yield Request(url=self.start_urls[0],
cookies=self.cookies,
headers=self.headers,
callback=self.parse,
dont_filter=True)
在crawlspider中实现登陆,有时验证码复杂,还