js 拉勾网效果_拉勾网反爬虫的解决(一次性cookie)

d4610ae69b87dcc8bce4d27c85926900.png

拉勾网在反爬方面一直是比较看重的,更新也是最频繁的,现在更新的就是拉勾网的职业信息爬虫。

拉勾网的数据信息和上文的大街网同样是由Ajax传递,页面分析大同小异在此不表。

但是当我们使用大街网session的方法爬取时却发现了这样的情况

83f7fd6d7066ce2f0df42d0bde477e09.png

此时我以为我我的爬取太频繁倒是ip被大街网封了,尝试使用了代理(具体内容接下来的文章会讲)。但是发现浏览器还能正常访问,便感觉是headers内的内容和正常访问不符,于是将Ajax对应的信息头全部填充进headers,如图:

    headers = {
    'Origin': 'https://www.lagou.com',
    'X-Anit-Forge-Code': '0',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36',
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Referer': 'https://www.lagou.com/jobs/list_java?px=new&city=%E4%B8%8A%E6%B5%B7',
    'X-Requested-With': 'XMLHttpRequest',
    'Connection': 'keep-alive',
    'X-Anit-Forge-Token': 'None',
}

此时发现效果依旧是

83f7fd6d7066ce2f0df42d0bde477e09.png

211560a927b9895be9a584ab086ae2ae.png

当我多次对比了多次请求的头文件发现,每次的cookie不同

d7769a33fdb7578114360041cb1654db.png

也就是红框内的部分。此时我已经比较迷茫了,于是开始查看cookie的具体内容。发现requests可以读取正常请求的cookie.于是决定效仿前一篇文章的方法,先访问Ajax的所属页面,然后将其返回的cookie注入新请求。代码如下

获取cookie:    returnCookie = requests.utils.dict_from_cookiejar(response.cookies)
更新cookie:    cookie.update(returnCookie)
再次请求  :    response = requests.post(url,data=data,headers=headers,cookies=cookie)

此时返回的数据即为预计数据。

由于个人原因,今天不能及时将数据和效果上传,将会在明天的更新中对今天的内容进行补充。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值