python模拟新浪微博登陆之获取cookies

首先感谢敲代码的耗子,之前一直搞不懂登陆新浪微博的原理,看了他那篇文章之后,终于明白了基本原理。在这里主要是通过代码实现那篇文章的过程。

获取网页使用的包是requests,正则匹配用的是re,其他需要的还有base64、rsa、binascii。如果安装有pip,可以直接在cmd(linux在终端)中输入命令“pip install 包名”进行安装,包的安装方法有很多种,这里不详述。

另外,python3的代码,请看:http://bgods.cn/blog/post/29/

其实,过程的实现还是比较容易的。新浪微博登陆主要是post时提交表单的用户名与密码都是经过处理后才提交的。

##1.利用网页分析工具监控
我使用的是HttpAnalyzerStdV7工具对登陆过程进行监控(当然也可使用其他工具)。
首先打开新浪通行证http://login.sina.com.cn/
这里写图片描述

然后,打开HttpAnalyzerStdV7工具,并点击开始监控按钮

这里写图片描述

最后输入用户名和密码,登陆成功后回到HttpAnalyzerStdV7工具界面,点击”Post Data“,再找到post请求的url,就会看到一个用于最后登陆的要提交的表单,如下图:

这里写图片描述

可以看到,最后通过post请求提交的表单中包含了用户名(su,sinauser缩写)、密码(sp,sinapassword缩写);
此外还有一些不知道的参数(servertime、nonce、rsakv),这些参数都是登陆必不可少的(再次感谢敲代码的耗子);
其他的还有参数,如savestate应该是cookies有效期,这些自己看着办。

2.get请求验证数据

其实,在发送post请求之前,浏览器会先向以下url(username是用户名)发送一个get请求,在get请求返回的数据中利用正则匹配提取servertime、nonce、pubkey、rsakv四个的值。过程如下:

url = 'http://login.sina.com.cn/sso/prelogin.php?entry=sso&callback=sinaSSOController.preloginCallBack&su=%s&rsakt=mod&client=ssologin.js(v1.4.4)%username'    

html = requests.get(url).content
servertime = re.findall('"servertime":(.*?),',html,re.S)[0]
nonce = re.findall('"nonce":"(.*?)"',html,re.S)[0]
pubkey = re.findall('"pubkey":"(.*?)"',html,re.S)[0]
rsakv = re.findall('"rsakv":"(.*?)"',html,re.S)[0]

3.加密过程

在1中我们利用工具分析得知post提交的数据中用户名与密码都是经过加密处理的,所以我们必须先对用户名与密码进行加密才能发送post请求。

加密用户名:

username = base64.b64encode(username)

密码采用的是rsa算法加密方式:

rsaPublickey = int(pubkey, 16)
key = rsa.PublicKey(rsaPublickey, 65537) #创建公钥
message = str(servertime) + '\t' + str(nonce) + '\n' + str(password) #拼接明文js加密文件中得到
passwd = rsa.encrypt(message, key) #加密
passwd = binascii.b2a_hex(passwd) #将加密信息转换为16进制。

4.post登陆新浪通行证

用户名username与密码passwd进行加密处理之后,就可以发送post请求登陆了。首先建立一个dict类型data变量,用于存储请求的数据表单,把username、passwd、servertime、nonce、rsakv重要参数都加入到相应位置,其他保持不变。(这里为了省事,data我是直接复制过来的)

login_url = 'http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.4)'
    data = {'entry': 'weibo',
        'gateway': '1',
        'from': '',
        'savestate': '7',
        'userticket': '1',
        'ssosimplelogin': '1',
        'vsnf': '1',
        'vsnval': '',
        'su': username,
        'service': 'miniblog',
        'servertime': servertime,
        'nonce': nonce,
        'pwencode': 'rsa2',
        'sp': passwd,
        'encoding': 'UTF-8',
        'prelt': '115',
        'rsakv' : rsakv,
        'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',
        'returntype': 'META'
        }
    html = requests.post(login_url,data=data).content

然后再运行一下print html代码就会得到以下结果:

<html>
<head>
<title>新浪通行证</title>
<meta http-equiv="Content-Type" content="text/html; charset=GBK" />

<script charset="utf-8" src="http://i.sso.sina.com.cn/js/ssologin.js"></script>
</head>
<body>
正在登录 ...
<script>
try{sinaSSOController.setCrossDomainUrlList({"retcode":0,"arrURL":["http:\/\/crosdom.weicaifu.com\/sso\/crosdom?action=login&savestate=1473605342","http:\/\/passport.97973.com\/sso\/crossdomain?action=login&savestate=1473605342","http:\/\/passport.weibo.cn\/sso\/crossdomain?action=login&savestate=1"]});}catch(e){}try{sinaSSOController.crossDomainAction('login',function(){location.replace('http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack&ssosavestate=1473605342&ticket=ST-MzU2MjI3OTUwMQ==-1442069342-xd-E69DF7FE9517FBB10247C39F3D1C20F5&retcode=0');});}catch(e){}
</script>
</body>
</html>

其中如果retcode=0,则说明登陆成功,如果是retcode=101则说明是失败。在登陆成功的页面里,你会发现有一个url(在location.replace之后的括号里),利用正则匹配把url提取出来:

urlnew = re.findall('location.replace\(\'(.*?)\'',html,re.S)[0]

再用刚刚提取到的urlnew发送get请求,并把cookies保存下来:

cookies = requests.get(urlnew).cookies

至此,cookies已经成功保存下来,接下来就可以利用此cookies登陆新浪微博了,在cookies有效期内再也不用使用输入用户名密码登陆了。

=================================================
以下是完整的代码,我把它定义成了一个函数,使用时用cookies = Get_cookies(),会提示输入用户名、密码,最后的cookies会保存到cookie变量中。

#-*- encoding:utf-8 -*-

import base64
import requests
import re
import rsa
import binascii

def Get_cookies():
    '''登陆新浪微博,获取登陆后的Cookie,返回到变量cookies中'''
    username = raw_input(u'请输入用户名:')
    password = raw_input(u'请输入密码:')

    url = 'http://login.sina.com.cn/sso/prelogin.php?entry=sso&callback=sinaSSOController.preloginCallBack&su=%s&rsakt=mod&client=ssologin.js(v1.4.4)%'+username
    html = requests.get(url).content

    servertime = re.findall('"servertime":(.*?),',html,re.S)[0]
    nonce = re.findall('"nonce":"(.*?)"',html,re.S)[0]
    pubkey = re.findall('"pubkey":"(.*?)"',html,re.S)[0]
    rsakv = re.findall('"rsakv":"(.*?)"',html,re.S)[0]

    username = base64.b64encode(username) #加密用户名
    rsaPublickey = int(pubkey, 16)
    key = rsa.PublicKey(rsaPublickey, 65537) #创建公钥
    message = str(servertime) + '\t' + str(nonce) + '\n' + str(password) #拼接明文js加密文件中得到
    passwd = rsa.encrypt(message, key) #加密
    passwd = binascii.b2a_hex(passwd) #将加密信息转换为16进制。

    login_url = 'http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.4)'
    data = {'entry': 'weibo',
        'gateway': '1',
        'from': '',
        'savestate': '7',
        'userticket': '1',
        'ssosimplelogin': '1',
        'vsnf': '1',
        'vsnval': '',
        'su': username,
        'service': 'miniblog',
        'servertime': servertime,
        'nonce': nonce,
        'pwencode': 'rsa2',
        'sp': passwd,
        'encoding': 'UTF-8',
        'prelt': '115',
        'rsakv' : rsakv,
        'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',
        'returntype': 'META'
        }
    html = requests.post(login_url,data=data).content
    urlnew = re.findall('location.replace\(\'(.*?)\'',html,re.S)[0]

    #发送get请求并保存cookies
    cookies = requests.get(urlnew).cookies
    return cookies

=================================================

今天刚刚开通博客,也是第一次写博客,这个编辑器用得还真不习惯。
后面会利用cookie登录微博爬取用户各种信息

python使用cookie登陆新浪微博用户信息http://blog.csdn.net/songzhilian22/article/details/48416301

欢迎访问我的个人站点:http://bgods.cn/

©️2020 CSDN 皮肤主题: 大白 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值