Python爬虫登录大学官网

最新推荐文章于 2024-05-30 10:08:42 发布

大A和小Q

最新推荐文章于 2024-05-30 10:08:42 发布

阅读量1.7k

点赞数 1

文章标签：爬虫 python js chrome 加密解密

本文链接：https://blog.csdn.net/qq_47780707/article/details/121718560

版权

Python爬虫登录大学官网

通过python登录大学官网（当然首先要有账号密码），内容包括：如何使用chrome查看网页信息和网络请求、分析网站通过js加密用户密码的方式、使用python登录网站。（不同官网的登录方式不尽相同，本文仅供参考）

一、使用Chrome查看网页信息和网络请求

首先打开所要解析的网站，点击F12（要打开Fn）或者右键->检查。本次主要用到Element、Source、Network三个功能。

1.1 Element功能模块

点击Element可以查看网页html源码，点击ctrl+f可以在箭头处中查找源码中的匹配字符等。
在这里插入图片描述

1.2 Network功能模块

点击Network可以查看网页与服务器端的交互信息，本文中主要用来查看发送的登录请求。
headers中可查看请求头信息，payload中的From Data查看网页向服务器请求所提交的内容。可以看到请求内容中的password是经过了加密的（输入的测试用错误密码是1234）。
在这里插入图片描述

1.3 Sources功能模块

查看网页的组成，包括css、js、image等。左边是网页的源码文件夹（右键可以查找匹配字符串），中间是所选文件的源码区（点击花括号可以格式化源码（pretty print）），右边是调试js代码时所用到的监控区。
在这里插入图片描述

二、分析网站js加密方式

2.1 查找加密函数并设置断点

查找加密方式简单粗暴的方式就是直接在文件夹中查找“encrypt”（加密）。找到响应的函数，并点击该行js代码设置断点。
在这里插入图片描述

2.2 用错误密码调试找到所有js加密的代码

设置完断点之后，输入错误密码，点击登录。程序会在断点处停止，右上角（或者左下角）控制调试区分别是继续运行、跳过下个函数、进入下个函数、跳出当前函数、逐步运行。通过call stack可以看到函数的调用次序。
在这里插入图片描述
查看调用栈的函数，发现最顶层函数_etd2中参数就是输入的密码，另一个参数是pwdDefaultEncryptSalt（在html文件中查找字符串可以发现就在html中获取）。通过调用栈右侧可以看到加密用到的js文件。

在这个js文件中查找etd2便可找到该函数的定义，在该函数中设置断点并继续运行。进入这个函数后逐步运行发现该函数返回值像是请求中的密码。记录这个返回值。
在这里插入图片描述
点击继续运行，js代码运行完了，网页显示密码错误（因为输入的是错误的密码）。在network中查看login请求中的payload中的password值，发现与刚才的返回值相同，所以etd2就是用来加密的最顶层js函数。至此已经完全找到了加密的js代码，可以将加密所用的js文件保存下来，用python调用js代码（当然需要稍加修改，具体可以看渗透测试-python破解前端js加密
）etd2函数获取返回值。
在这里插入图片描述