爬虫-IP屏蔽题目: 提供俩种解题方法

题目:

在这里插入图片描述
技术难点: 这个题目的难点在于,你登录跟没有登录,获取到的数据是不一样的,之前爬取其他题目的时候,发现结果怎么也不对,后来通过下载的html分析,才发现,原来自己爬取到的数据,是未登录的数据。

解题方法: 登录信息,直接headers添加cookies, 或者自己重新通过他们的登录平台先登录,获取信息后再添加proxy,然后再爬取。

方法一:selenium的运用(速度慢)
  1. 创建 webdriver.ChromeOptions(),给他添加proxy参数,以及headless无界面显示
  2. 通过账号密码登录
  3. 切换选项卡execute_script(“window_open”),browser.switch_to_window(broser.window_handles[1]), get需要访问的地址,爬取数据
  4. 由于这里一直使用代理来访问,所以需要一直校验是否成功
方法二:session的运用(速度快)
  1. 创建个session
  2. session.get访问登录页面,获取_token的cookies信息, post提交表单时候需要用到
  3. session.post模拟登录
  4. 登录之后,session就保存了登录时候的信息,这个时候,就可以给session添加代理,然后访问响应的网站,就可以获取得到登录账号后的响应页面的信息。

补充: 这里需要特别注意的是,session.post请求,模拟登录,需要_token的cookies信息、email账号、password密码,我门可以通过抓包软件,就可以看到post请求中需要的数据
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值