python模拟登录页面下载_python爬虫之模拟登录

最近应朋友要求,帮忙爬取了小红书创作平台的数据,感觉整个过程很有意思,因此记录一下。在这之前自己没怎么爬过需要账户登录的网站数据,所以刚开始去看小红书的登录认证时一头雾水,等到一步步走下来,最终成功,思路通了感觉其实还是很简单。

解决思路

一开始我就只有这么一个网址小红书创作平台,和登录账号、密码,然后经过数次试错分析,最终拿出了解决方案。要爬取这个平台的数据,最核心的就是使用python模拟浏览器登录进去。探索过程:

1、在登陆界面点击用密码登录,输入账号密码验证码,通过chrome调试工具查看请求的header会发现,登录时是通过POST方式,请求的实际地址是:http://post.xiaohongshu.com/web_api/sns/v1/homerus/user/login_with_passwd,登录需要的参数有五个,分别是账号、密码、token、captcha(图片验证码)、zone值,其中zone是指你所在的国家的区号,例如中国为+86,因此值为86。那么这里处理比较困难的就是token和captcha。

2、token哪里来的?是什么值?captcha是图片验证码,怎么处理?我发现进行在登陆界面点击用密码登录这个操作时,实际进行了一次GET请求,请求的地址http://post.xiaohongshu.com/api/homerus/login/captcha,并且返回了两个数据:一个是token,还有一个是验证码图片链接。怎么样?有没有很开心,需要什么就

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值