Python爬虫高级之JS渗透登录新浪微博 | 知了独家研究

本文链接：https://blog.csdn.net/jspython/article/details/105972453

小伙伴们看到标题可能会想，我能直接自己登陆把登陆后的cookie复制下来加到自定义的请求头里面不香嘛，为什么非要用python模拟登录的过程？如果我们是长期爬取数据，比如每天早上中午和晚上定时爬取新浪，那么，这个方法对我们来讲可能就非常的不方便了，因为我们一直都在重复的做登录复制的劳动，这对我们程序员甚至是普通人来讲都是很不友好的。

所以，今天我给大家带来用python模拟登录新浪微博的过程。
在这里插入图片描述

一、JS渗透爬虫准备工作

在介绍代码之前，我先说一下代码中用到的库。

1.rsa（是一个非对称加密算法，需要pip安装一下）
2.Requests（可以说，只要有爬虫的地方大多数都有它）
3.base64(加密算法)python内置的
4.time（时间模块）
5.json(处理字符串的)
6.binascii（这个是处理16进制数的，可以将前面多余的显示十六进制信息的符号去掉）

1.工具介绍

然后我们用到的抓包工具，Fiddler 4。这款工具，在爬虫这里来讲，尤其是涉及到了高级和js渗透，没有这个工具肯定是不行的。

由于在这里我们还涉及到js渗透，所以推荐使用的浏览器是谷歌浏览器，我们的例子也是用谷歌浏览器实现的。现在，我必须先介绍一下js渗透的基本思想和方法。

Js渗透，故名思意，就是利用js代码，从而分析出网页中的参数到底是怎么来的，从而模拟关键参数构造的过程，从而可以自己构造数据包，达到我们想要达到的目的。

那到底如何渗透呢？我们先来了解一下我们的工具！

2.谷歌浏览器
在这里插入图片描述
首先，我们看第一个两个箭头所指的Elements，在元素这一栏里面，右边有一个事件，也就是EventListeners，点击这个栏目，我们可以看到click这个字段，我们点击它，会看到出现了几个栏目，这个就是我们触发调试的关键，在click中，只要我们的鼠标点击一次，就相当于出发了一个焦点，每触发一个焦点，就会触发调试，当然，这个是需要我们打断点的，至于怎么打断点，我在下面会讲到。在触发的焦点中，我们需要的是登录这个按钮的这个触发点，click，因为这个很关键，如图：
在这里插入图片描述
要唤出我们需要的点击事件，我们需要用如下图所示的小鼠标，点击它，然后再点击上面的登录按钮，这样，在click中就能够跳出我们想要的触发事件，如图：

Console这个模块。这个模块非常的有意思，它是我们看js内部代码的关键所在，等等我们就会演示。

Source:这个模块就是用来看js代码的，这里我们点击 source，然后看一下右边的栏目：
在这里插入图片描述
箭头从右至左分别是，调试的暂停，下一步，进入到改行代码的函数中，以及跳出函数继续执行。这个是我们调试的另一个关键的模块。我们可以发现，上面图片中的js代码根本不是人看的，当然这个不要紧，我们可以注意到，图片左下角有一个{}，点击它，就可以让代码变成人可读的样子。

Network：这个是chrome自带的抓包模块，在这里面，我们可以抓到每个请求的http包。使用方法就是如图：
在这里插入图片描述
左边的箭头是停止抓包，右边的箭头是清除抓到的包。点击图中的Initiator，可以进入到该包的js模块中，这个也是我们等等会重点用到的。

3.Fiddler

我最后再介绍一下fiddler这个软件，这个软件在网上可以下载，是免费的。

它是一款在osi七层模型中抓取应用层上面http协议的软件，它在爬虫中的地位也是很高的，也很重要。
在这里插入图片描述
我们可以看到，上面就是协议包，而哪个capturing就是正在抓取的意思，我们可以再抓取到我们想要的数据包的时候，再点击它，将抓包停止。

这里就是我们需要看参数的地方，非常的关键，因为我们的参数就是从这里观察到的。

如果显示不了文本就点击黄色的那一栏，这样就可以转码了。当然我们还需要善于利用查找关键字来定位我们的参数在哪里。

大家一定要注意，全局搜索的用处是很大的，平常大家的搜索技能在爬虫中可以更加充分的发挥作用。

二、微博实战

1.Fiddler抓包应用

现在让我们看看到底怎么样实现微博登录的吧。

第一步，我们打开新浪的网站，网站的url是:https://weibo.com/

然后，我们打开fillder这个抓包工具，记住，我们先输入账号和正确的密码，点击登录，然后等到登陆后的页面出来后，我们停止抓包，我们可以看到如下的数据包：

当然，一开始使用fiddler可能会出现读者抓不到包的情况，这个也有解决办法：我们点击左上角的Tools，然后点击里面的Options选项，在跳出来的框中，点击HTTPS，然后点击Actions，点击跳出来的第一个选项，然后按yes，之后一直同意就好了，接下来我们就能抓包了。
在这里插入图片描述
我们发现，在数据包中有一个带login的url，这个我断定应该是一个登录请求，那是不是说，只要构造这个包里面的参数，就可以进行模拟登录了呢？

现在，我们来看一下这个包里面具体的数据:
在这里插入图片描述
在这个数据包中，我们能看到有很多的参数，但是参数我们都说分成固定的参数和动态的参数，固定的参数，我们只需要复制黏贴就行，但是，动态参数是需要我们模拟的，所以，我们需要在这些参数中，找到动态的参数。找法就是多发送几次请求用错误的密码，正确的密码去试，然后对比这几次抓到的同一个包。这里我们把这个步骤留给读者自己验证，现在我来说结论，我发现，nonce，sp，rsakv，servertime这几个参数是会变的，其他参数是固定的。那么，接下来，我们就是要模拟这些参数，搞清楚它们是怎么来的。