python爬去学校_利用Python如何爬取自己学校的官网？用这招就行！

最新推荐文章于 2024-05-30 10:08:42 发布

weixin_39717029

最新推荐文章于 2024-05-30 10:08:42 发布

阅读量1.2k

点赞数

文章标签： python爬去学校

本文介绍如何使用Python爬虫抓取学校官网成绩。首先分析浏览器请求，包括登陆、查询成绩的网络请求，利用requests和BeautifulSoup模拟请求并解析数据。同时，展示了两种方案：普通爬虫和Selenium自动化测试框架，后者虽然操作直观但速度较慢。

摘要由CSDN通过智能技术生成

查成绩，算分数，每年的综合测评都是个固定的过程，作为软件开发者，这些过程当然可以交给代码去做，通过脚本进行网络请求获取数据，然后直接进行计算得到基础分直接填表就好了，查成绩再手动计算既容易出错也繁琐，所以本篇的内容就是开发一个爬虫脚本取抓取成绩表，至于综合测评计算，这个没什么意义这里就不说了，分数都有了就都够了。

我们的目的就是通过编写脚本，模仿浏览器进行请求获取源码，再进行解析本地化(或者直接计算)

要抓取到数据，其实方案不止一种，这里会介绍两种不同的方案，达到同样的目的：模仿浏览器进行请求(速度快)

操作浏览器进行请求(速度慢)

先说第一种，这种方案是普遍的爬虫技术，因为爬取的内容不多，对速度要求也不够，所以就是很简单的一个爬虫过程：

分析请求

模仿请求

对于普通的校园网，一般不做流量限制，所以就算请求频繁，也基本不用担心IP被封禁，所以编写爬虫代码可以不用太过担心。先说我所在学校的校园网，是杭州方正软件公司开发的。

① 分析请求

分析请求很简单，就是使用浏览器进行请求，然后分析每个请求所发送和接收的信息，这里最简单应该是使用chrome的开发者模式(F12打开)

输入用户名和密码，勾选已认真阅读，接着点击登陆，这样右边的网络窗口中会检查到所有的网络请求，我们只需要找到对应登陆的一个(这里会带有表单)：

这个时候，我们可以通过一些测试工具，尝试进行请求对应的这个地址，并且把表单提交上去试试登陆能否成功，如果成功的话，脚本也就可以模拟这个请求，这里用的是chrome商店的一个工具Postman，用法很简单：

登陆成功之后，我们再进行查询成绩：

这里可以看到这次得到了两个新的请求(上图红框的前两个)

仔细观察会发现，第一个请求头中的Referer指向的是第二个请求的地址，所以可以知道，第二个请求是先于第一个请求发送的。其次，我们发现这个请求中也有表单。

再看第二个请求：

它的Referer指向第三个请求，而这个第三个请求实际上登陆成功之后，就已经存在了，它就是请求到主界面的，而这个请求的类型是Get，所以也表明，第三个请求没有传递任何信息给这个请求。

整理可以知道，流程是这样的：

所以，我们先来模拟第二个，这个请求是Get类型，所以直接请求即可，但是会发现请求会失败，原因是服务器不能知道我们已经进行登陆了：

所以最先想到的办法是带上第一个请求得到的Cookie，但是也是不行，这个时候要用到上面说的Referer标识，这个标识会告诉服务器请求来源，因为登陆成功会在服务器进行登记，这个标记会让服务器知道请求来源于登陆成功的账号：

此时请求返回正常，我们在源码中可以发现有两个隐藏的标签：

这两个标签传递的，其实是第三个请求的参数，这个时候，模拟第三个请求，并且添加对应的Referer(第二个请求的URL)，会发现请求也成功了：

这个请求中的url中的一个参数xm被我更改为1了，原本使用的是一种unicode加密编码，把用户名编码过去了，但是实际上这个参数并没有实际意义，%u的格式会破坏Python程序，所以这里直接改成1了。

② 模仿请求

请求分析完毕，就可以开始写代码了：

用到的包：

1 import

最低0.47元/天解锁文章

weixin_39717029

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬去学校_利用Python如何爬取自己学校的官网？用这招就行！

查成绩，算分数，每年的综合测评都是个固定的过程，作为软件开发者，这些过程当然可以交给代码去做，通过脚本进行网络请求获取数据，然后直接进行计算得到基础分直接填表就好了，查成绩再手动计算既容易出错也繁琐，所以本篇的内容就是开发一个爬虫脚本取抓取成绩表，至于综合测评计算，这个没什么意义这里就不说了，分数都有了就都够了。我们的目的就是通过编写脚本，模仿浏览器进行请求获取源码，再进行解析本地化(或者直接计算...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。