深入分析微博密码加密and百万级数据采集分享（登录篇）

最新推荐文章于 2022-06-09 09:15:01 发布

IronMan☆

最新推荐文章于 2022-06-09 09:15:01 发布

阅读量1.3k

点赞数 7

分类专栏：爬虫文章标签： js逆向

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38742052/article/details/103416912

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

一、前言

此文章主要是对微博微博关键词的检索结果进行采集，但是微博的采集需要登陆，所以此程序分为登陆程序和爬虫程序两部分；
微博要实现规模性数据采集自然少不了大量账号，这就需购买大量账号以及批量登陆，但是都买的账号都会对IP进行限制（一个ip下面最多登陆两个账号），所以无法实现批量登录，只能将采集程序与登录程序以1:1的形式部署多个节点，通过调用关键词任务分发接口来实现大量采集；
微博的关键词采集可以在weibo.com以及weibo.cn两个站点进行采集，这里主要针对weibo.com进行采集；

二、登陆

登陆主要分为两种方式：selenium+chrome以及模拟登陆

selenium+chrome：这个方法比较简单，直接控制浏览器登陆就行，登陆可能会出现验证码，验证码是最普通的那种，直接调用打码平台即可；
模拟登陆：模拟登录比较麻烦，这一块会详细说，微博的登录为RSA加密登录,RSA加密原理大家可以自己百度下，这里就不赘述了，登录分为两部分，首先为预登陆，会返回加密公钥以及其他一些必要的参数，第二步把这些参数+加密通过RSA加密，公钥，验证码（如果有）请求登录链接即可成功

首先预登录，一般会在输入账号以后会触发此请求，也可能会在点击登录后触发

预登陆链接为：https://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=MTMyNzg4MzQwMjE%3D&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.19)&_=1575613055938

主要参数：

其中su为账号的base64加密，_为当前时间戳，其他参数为固定值

返回值：返回值分两种情况，一种有验证码，一种无验证码，当需要输入验证码时会返回pcid字段，不需要输入时不会返回，结果如下图

有用的几个参数为servertime,nonce,pubkey,rsakv,pcid（如果有）。

接下来为获取验证码，验证码链接为："https://login.sina.com.cn/cgi/pin.php?r=86006630&s=0&p="+pcid，参数r随意，p为pcid，请求时请求头加上UA和refere，返回验证码后代用打码平台来识别验证码

最后开始重头戏，密码加密部分，首先输入账号和密码登录一次，点击登录之前先打开浏览器控制台清空所有请求，接下来观察登录过程所出发的请求

很明显，第二个请求为登录触发的js，把鼠标放在Initiator对应的位置就会出现这个 JS文件包含的方法和对应的路径,请求表单里面包含的参数su、nonce、rsakv与上面提到的是一致的（我的不一致时因为我两次登陆使用的不是同一个账号），sp为rsa加密后的结果，然后去sources里面找到对应路径下面的js文件，在里面搜一下这几个参数。

784行这里这几个参数都出现了，而且782行是用户名的base64加密，在这里打上断点，一步步调试提取出加密js，调试的过程比较繁琐，需要耐心;还有个比较快的方法是直接用这个js文件，使用里面的sinaSSOEncoder对象进行加密，不过最后在代码中执行js文件时还是要吧里面一些没用的东西删除掉比如windows,alert等，785-790行为加密需要的一些参数，都是预登录得到的，需要注意的是servertime也是预登录返回的servertime不是当前时间，第791行的b就是加密后得到的结果，即第二步请求sp参数。

至此，所有登录需要的参数都已经得到了，带上所有参数请求（post）这个链接https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.19)获取返回的cookie就能直接登录了。

登录代码git地址：https://github.com/JetLei/MblogLoginDemo。

关注

7
点赞
踩
6

收藏

觉得还不错? 一键收藏
10
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。