pythonurllib登录微博什么意思_登录微博详解-爬虫的第一站-CSDN博客

作为一个小白，今天兴致勃勃的想爬一波微博上的数据，没有想到光是登录微博就耗费了一波时间，参考了一下两个链接和万能的抓包工具fiddler，关于fiddler可以参见上一篇文章中的链接和个人笔记。人间观测：fiddler介绍zhuanlan.zhihu.compython爬虫之新浪微博登录 - purplelavender - 博客园www.cnblogs.com模拟新浪微博登录：从原理分析到实现www.cnblogs.com

下面具体介绍一下从原理出发怎么一步步的完成微博登陆，首先你需要打开fiddler和打开微博页面，并且执行一次登录操作，我们可以发现从输入账号密码以及跳转到登录后的页面，fiddler一共抓了以下几个包

而我们接下来分成两大步骤，一是根据上面抓的包来分析我们该怎样实现微博的登录，二是分析完了之后我们将其重新梳理一下写成代码的形式(用python实现)。

顺序分析+递归分析5445 我们点开他然后看到他的Headers和下面syntaxview展示的网页返回的东西，还有下一张图webforms中的一些属性及值他们是这个网页需要传进去的参数值。

可以看到要访问5445的网页需要传进去七个参数值，一般的参数的值有3种情况：参数值固定：多次抓包值均不变

参数值来自于之前服务器的响应，当我们发现多次抓包数值产生变化时，我们可以通过把这样的数值在fiddler中全局查找看看是不是之前session返回的值。

参数值来自代码生成，当我们发现数值是变化的又在之前session中查不到时，这时候我们就要去看源代码了。

这里的参数中除了su和其他都是固定的，而5445是第一个页面，所以他们不可能来自于其他页面，不变参数值一般不会是数字或字母的拼接；首先先看“_”，个人发现其实他是可以当成默认值的，因为他可以一直使用(试了几波)，但根据两篇参考文章中的代码发现他是由时间戳timestamp生成的(并且通过下面的调试发现了)；另外，“su”到底是怎么生成的，到底表示什么意思，我们可以看到client的值是一个js文件，鉴于5445是第一个响应，所以我们大胆猜测它是由ssologin.js产生的(其实我对这些知识不太懂，之前也没有做过关于前端的一些事情，希望大家能够在评论区给出经验和指正)，然后我就去找一下这个js文件。我们可以在浏览器上打开http://login.sina.com.cn这个网页然后查看源代码，找到ssologin.js文件，此时我们需要查看su怎么生成的，刚开始搜索su发现太多了，所以搜了一下su=然后发现了这样子。

但是其实根据参考的链接1有一种更为科学但是更加需要能力的方法(作为初学者我还是云里雾里不能很好的运用)通过调试js文件，一步步的到达，这里我尝试了一下，首先还是先去http://login.sina.com.cn网页上，然后输入你的账户名和密码，同时查看源代码，并设置mouses下的click为断点，然后按一下登录键你就开始进入调试了：

上面这个图刚好走到了5445的这个页面，可以看到传进去的username相当于su(可以通过自仔细看代码)是怎么构建的，还有entry这些，另外下面的callback函数要求的返回参数之前我们也在fiddler中看到他的具体返回值。并且继续向下调试就会发现之前的‘_’来自于哪里了：

以上我们可以知道了su到底是怎么构造的了，我们可以顺利的构建第一个5445这个url并且得到一些返回值比如nonce这些，那么这些返回值到底有什么用，我们可以接下来继续底下的响应是否用上了他们。5446 我们像看5445上的webforms一样查看他需要提交的参数

可以看到有nonce，rsakv这些我们从5445得到的值，也有su和sp这种js生成的值，还有一些固定值；这里就出现了5445没有见到的第二种参数值：nonce和rsakv，运气好我们会发现5445生成了他，运气不好我们也可以在fiddler上全局查找nonce他的值扎到在哪些响应上有了它，可以得到他到底是哪个响应生成的，再次强调怎样知道他不是固定的值，多抓几次包就知道了(感觉爬虫其实是一个挺需要耐心的事情)。刚刚只找了su，下面可以像之前一样在ssologin.js里面找他怎么生成的，这个就不介绍了；我们还是走更加科学的路线，一步步的debug吧，接着前面的debug继续找sp的生成方式：

这样我们就找到了password的生成方式。我们只要在自己的代码中仿照其实现就可以了。

至此我们可以顺利的登录了。

感触颇深真的要学习一下JS，外加谷歌浏览器的调试真的很方便。

但是只有到达5455我们才算真正走进微博广场，下面这么多响应其实并不是每一个都对于我们来说是有用的，所以我搜了一下每个颜色的意义，如此看来我们真正要管的也就是绿色和蓝色。

所以接下来我们看一下5448,5450,54555448

上图的5448好像也没有看出来什么还是不知道怎样抵达最终的weibo.com,之所以先把ticket框出来，是因为接下来会用到，不想重复放图。5450

接下来我们看5450，发现他用到了5448返回的ticket，那他有啥用呢，我们可以继续看5455，也就是我们最终要到达的页面，点开webforms发现他没有要具体填的值，然后重新看Headers，发现它有一串数字39577...。5455

然后我就在fiddler里面找，发现5450中返回了这个数字，所以我们需要先访问5450，同样5450中的ticket和savessostate的数值又可以由5448的返回得到，其实仔细观察一下5448的返回可以发现他返回的arrurl值包含了5450的响应地址，然后我们又来看5448这个响应其实他就是5446返回值里的内容，所以这一切都可以接上了，接下来我们只要按照抓到的包的顺序一步步的实现代码，就可以抵达微博页面。

代码实现

代码部分也参考了那两篇博客文章的实现方式，另外此处的实现会按照响应的顺序来实现，这样更加容易理解。

import base64

import re

from binascii import b2a_hex

import requests

import time

import rsa

class LoginWeibo():

def __init__(self,username,password):

self.username=username

self.password=password

#session设置

self.session=requests.session()

#user-agent也可以通过fiddler上看到

self.session.headers={'User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'}

self.session.verify = False # 取消证书验证

def enter5445(self):

#进去5445需要username转化成su以及获取当前时间戳

timestamp=int(time.time()*1000)

#因为之后也用到su，所以这里作为类的变量,js代码指示了他的做法

self.su=base64.b64encode(self.username.encode())

url='https://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack' \

'&su={}&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.19)&_={}'.format(self.su,timestamp)

#获取response

response=self.session.get(url).content.decode()

#可以通过正则表达式从里面抽取nonce,pubkey,rsakv,servertime值提供给5446

self.nonce = re.findall(r'"nonce":"(.*?)"', response)[0]

self.pubkey = re.findall(r'"pubkey":"(.*?)"', response)[0]

self.rsakv = re.findall(r'"rsakv":"(.*?)"', response)[0]

self.servertime = re.findall(r'"servertime":(.*?),', response)[0]

def get_sp(self):

'''同样是看的ssologin.js里面的代码，直接抄写了第一篇博客的代码'''

publickey = rsa.PublicKey(int(self.pubkey, 16), int('10001', 16))

message = str(self.servertime) + '\t' + str(self.nonce) + '\n' + str(self.password)

self.sp = rsa.encrypt(message.encode(), publickey)

return b2a_hex(self.sp)

def enter5446(self):

url='https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.19)'

#抄写fiddler这个响应的webforms内容

data={

'entry':'weibo',

'gateway':'1',

'from':'',

'savestate':'7',

'qrcode_flag': 'false',

'useticket': '1',

'pagerefer': 'https://www.baidu.com/link?url=0IuHDm9TTUkxC4nzqemXsLyaKZxKyWjRplglL41t-xq&wd=&eqid=c9309676000092ff000000065dd649ed',

'vsnf': '1',

'su': self.su,

'service': 'miniblog',

'servertime': str(int(self.servertime) ),

'nonce': self.nonce,

'pwencode': 'rsa2',

'rsakv': self.rsakv,

'sp': self.get_sp(),

'sr': '1920 * 1080',

'encoding': 'UTF - 8',

'prelt': '723',

'url': 'https://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',

'returntype': 'META',

}

response = self.session.post(url, data=data, allow_redirects=False).text

return response

def enter5448(self,response):

redirect_url = re.findall(r'location.replace\("(.*?)"\);', response)[0] # 从5446返回的内容直接得到5448的响应地址，可以看fiddler的syntaxview的具体内容

result = self.session.get(redirect_url, allow_redirects=False).text

ticket, ssosavestate = re.findall(r'ticket=(.*?)&ssosavestate=(.*?)"', result)[0] #给5450页面使用

return ticket,ssosavestate

def enter5450(self,ticket, ssosavestate):

timestamp = int(time.time() * 1000)

url = 'https://passport.weibo.com/wbsso/login?ticket={}&ssosavestate={}&' \

'callback=sinaSSOController.doCrossDomainCallBack&scriptId=ssoscript0&client=ssologin.js(v1.4.19)&_={}'.format(

ticket, ssosavestate, timestamp)

data = self.session.get(url).text

uid = re.findall(r'"uniqueid":"(.*?)"', data)[0] #为最后的weibo页面提供id

return uid

def enter5455(self,uid):

url = 'https://weibo.com/u/{}/home'.format(uid) # 请求首页

html = self.session.get(url)

html.encoding = 'utf-8'

print(html.text)

def login(self):

#enter 5445

self.enter5445()

#enter 5446

response_5446=self.enter5446()

#enter 5448

ticket, ssosavestate =self.enter5448(response_5446)

#enter 5450

uid=self.enter5450(ticket, ssosavestate )

#enter 5455

self.enter5455(uid)

if __name__ == '__main__':

username = '' # 微博账号

password = '' # 微博密码

weibo = LoginWeibo(username, password)

weibo.login()

总结

道阻且长，深刻的感受到了需要递归式学习，下一波可能要学习一下JS前端才能更好地学习爬虫。希望大佬们能够给一些建议和指正！