pythonurllib登录微博什么意思_登录微博详解-爬虫的第一站

作为一个小白,今天兴致勃勃的想爬一波微博上的数据,没有想到光是登录微博就耗费了一波时间,参考了一下两个链接和万能的抓包工具fiddler,关于fiddler可以参见上一篇文章中的链接和个人笔记。人间观测:fiddler介绍​zhuanlan.zhihu.compython爬虫之新浪微博登录 - purplelavender - 博客园​www.cnblogs.com模拟新浪微博登录:从原理分析到实现​www.cnblogs.com

下面具体介绍一下从原理出发怎么一步步的完成微博登陆,首先你需要打开fiddler和打开微博页面,并且执行一次登录操作,我们可以发现从输入账号密码以及跳转到登录后的页面,fiddler一共抓了以下几个包

而我们接下来分成两大步骤,一是根据上面抓的包来分析我们该怎样实现微博的登录,二是分析完了之后我们将其重新梳理一下写成代码的形式(用python实现)。

顺序分析+递归分析5445 我们点开他然后看到他的Headers和下面syntaxview展示的网页返回的东西,还有下一张图webforms中的一些属性及值他们是这个网页需要传进去的参数值。

可以看到要访问5445的网页需要传进去七个参数值,一般的参数的值有3种情况:参数值固定:多次抓包值均不变

参数值来自于之前服务器的响应,当我们发现多次抓包数值产生变化时,我们可以通过把这样的数值在fiddler中全局查找看看是不是之前session返回的值。

参数值来自代码生成,当我们发现数值是变化的又在之前session中查不到时,这时候我们就要去看源代码了。

这里的参数中除了su和其他都是固定的,而5445是第一个页面,所以他们不可能来自于其他页面,不变参数值一般不会是数字或字母的拼接;首先先看“_”,个人发现其实他是可以当成默认值的,因为他可以一直使用(试了几波),但根据两篇参考文章中的代码发现他是由时间戳timestamp生成的(并且通过下面的调试发现了);另外,“su”到底是怎么生成的,到底表示什么意思,我们可以看到client的值是一个js文件,鉴于5445是第一个响应,所以我们大胆猜测它是由ssologin.js产生的(其实我对这些知识不太懂,之前也没有做过关于前端的一些事情,希望大家能够在评论区给出经验和指正),然后我就去找一下这个js文件。我们可以在浏览器上打开http://login.sina.com.cn这个网页然后查看源代码,找到ssologin.js文件,此时我们需要查看su怎么生成的,刚开始搜索su发现太多了,所以搜了一下su=然后发现了这样子。

但是其实根据参考的链接1有一种更为科学但是更加需要能力的方法(作为初学者我还是云里雾里不能很好的运用)通过调试js文件,一步步的到达,这里我尝试了一下,首先还是先去http://login.sina.com.cn网页上,然后输入你的账户名和密码,同时查看源代码,并设置mouses下的click为断点,然后按一下登录键你就开始进入调试了:

上面这个图刚好走到了5445的这个页面,可以看到传进去的username相当于su(可以通过自仔细看代码)是怎么构建的,还有entry这些,另外下面的callback函数要求的返回参数之前我们也在fiddler中看到他的具体返回值。并且继续向下调试就会发现之前的‘_’来自于哪里了:

以上我们可以知道了su到底是怎么构造的了,我们可以顺利的构建第一个5445这个url并且得到一些返回值比如nonce这些,那么这些返回值到底有什么用,我们可以接下来继续底下的响应是否用上了他们。5446 我们像看5445上的webforms一样查看他需要提交的参数

可以看到有nonce,rsakv这些我们从5445得到的值,也有su和sp这种js生成的值,还有一些固定值;这里就出现了5445没有见到的第二种参数值:nonce和rsakv,运气好我们会发现5445生成了他,运气不好我们也可以在fiddler上全局查找nonce他的值扎到在哪些响应上有了它,可以得到他到底是哪个响应生成的,再次强调怎样知道他不是固定的值,多抓几次包就知道了(感觉爬虫其实是一个挺需要耐心的事情)。刚刚只找了su,下面可以像之前一样在ssologin.js里面找他怎么生成的,这个就不介绍了;我们还是走更加科学的路线,一步步的debug吧,接着前面的debug继续找sp的生成方式:

这样我们就找到了password的生成方式。我们只要在自己的代码中仿照其实现就可以了。

至此我们可以顺利的登录了。

感触颇深真的要学习一下JS,外加谷歌浏览器的调试真的很方便。

但是只有到达5455我们才算真正走进微博广场,下面这么多响应其实并不是每一个都对于我们来说是有用的,所以我搜了一下每个颜色的意义,如此看来我们真正要管的也就是绿色和蓝色。

所以接下来我们看一下5448,5450,54555448

上图的5448好像也没有看出来什么还是不知道怎样抵达最终的weibo.com,之所以先把ticket框出来,是因为接下来会用到,不想重复放图。5450

接下来我们看5450,发现他用到了5448返回的ticket,那他有啥用呢,我们可以继续看5455,也就是我们最终要到达的页面,点开webforms发现他没有要具体填的值,然后重新看Headers,发现它有一串数字39577...。5455

然后我就在fiddler里面找,发现5450中返回了这个数字,所以我们需要先访问5450,同样5450中的ticket和savessostate的数值又可以由5448的返回得到,其实仔细观察一下5448的返回可以发现他返回的arrurl值包含了5450的响应地址, 然后我们又来看5448这个响应其实他就是5446返回值里的内容,所以这一切都可以接上了,接下来我们只要按照抓到的包的顺序一步步的实现代码,就可以抵达微博页面。

代码实现

代码部分也参考了那两篇博客文章的实现方式,另外此处的实现会按照响应的顺序来实现,这样更加容易理解。

import base64

import re

from binascii import b2a_hex

import requests

import time

import rsa

class LoginWeibo():

def __init__(self,username,password):

self.username=username

self.password=password

#session设置

self.session=requests.session()

#user-agent也可以通过fiddler上看到

self.session.headers={'User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'}

self.session.verify = False # 取消证书验证

def enter5445(self):

#进去5445需要username转化成su以及获取当前时间戳

timestamp=int(time.time()*1000)

#因为之后也用到su,所以这里作为类的变量,js代码指示了他的做法

self.su=base64.b64encode(self.username.encode())

url='https://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack' \

'&su={}&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.19)&_={}'.format(self.su,timestamp)

#获取response

response=self.session.get(url).content.decode()

#可以通过正则表达式从里面抽取nonce,pubkey,rsakv,servertime值提供给5446

self.nonce = re.findall(r'"nonce":"(.*?)"', response)[0]

self.pubkey = re.findall(r'"pubkey":"(.*?)"', response)[0]

self.rsakv = re.findall(r'"rsakv":"(.*?)"', response)[0]

self.servertime = re.findall(r'"servertime":(.*?),', response)[0]

def get_sp(self):

'''同样是看的ssologin.js里面的代码,直接抄写了第一篇博客的代码'''

publickey = rsa.PublicKey(int(self.pubkey, 16), int('10001', 16))

message = str(self.servertime) + '\t' + str(self.nonce) + '\n' + str(self.password)

self.sp = rsa.encrypt(message.encode(), publickey)

return b2a_hex(self.sp)

def enter5446(self):

url='https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.19)'

#抄写fiddler这个响应的webforms内容

data={

'entry':'weibo',

'gateway':'1',

'from':'',

'savestate':'7',

'qrcode_flag': 'false',

'useticket': '1',

'pagerefer': 'https://www.baidu.com/link?url=0IuHDm9TTUkxC4nzqemXsLyaKZxKyWjRplglL41t-xq&wd=&eqid=c9309676000092ff000000065dd649ed',

'vsnf': '1',

'su': self.su,

'service': 'miniblog',

'servertime': str(int(self.servertime) ),

'nonce': self.nonce,

'pwencode': 'rsa2',

'rsakv': self.rsakv,

'sp': self.get_sp(),

'sr': '1920 * 1080',

'encoding': 'UTF - 8',

'prelt': '723',

'url': 'https://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',

'returntype': 'META',

}

response = self.session.post(url, data=data, allow_redirects=False).text

return response

def enter5448(self,response):

redirect_url = re.findall(r'location.replace\("(.*?)"\);', response)[0] # 从5446返回的内容直接得到5448的响应地址,可以看fiddler的syntaxview的具体内容

result = self.session.get(redirect_url, allow_redirects=False).text

ticket, ssosavestate = re.findall(r'ticket=(.*?)&ssosavestate=(.*?)"', result)[0] #给5450页面使用

return ticket,ssosavestate

def enter5450(self,ticket, ssosavestate):

timestamp = int(time.time() * 1000)

url = 'https://passport.weibo.com/wbsso/login?ticket={}&ssosavestate={}&' \

'callback=sinaSSOController.doCrossDomainCallBack&scriptId=ssoscript0&client=ssologin.js(v1.4.19)&_={}'.format(

ticket, ssosavestate, timestamp)

data = self.session.get(url).text

uid = re.findall(r'"uniqueid":"(.*?)"', data)[0] #为最后的weibo页面提供id

return uid

def enter5455(self,uid):

url = 'https://weibo.com/u/{}/home'.format(uid) # 请求首页

html = self.session.get(url)

html.encoding = 'utf-8'

print(html.text)

def login(self):

#enter 5445

self.enter5445()

#enter 5446

response_5446=self.enter5446()

#enter 5448

ticket, ssosavestate =self.enter5448(response_5446)

#enter 5450

uid=self.enter5450(ticket, ssosavestate )

#enter 5455

self.enter5455(uid)

if __name__ == '__main__':

username = '' # 微博账号

password = '' # 微博密码

weibo = LoginWeibo(username, password)

weibo.login()

总结

道阻且长,深刻的感受到了需要递归式学习,下一波可能要学习一下JS前端才能更好地学习爬虫。希望大佬们能够给一些建议和指正!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值