python爬虫学校正方教务系统获取全部成绩

YY博客

已于 2022-12-02 21:33:23 修改

阅读量3.3k

点赞数 5

分类专栏： python笔记文章标签： python 爬虫开发语言

于 2022-12-02 21:22:49 首次发布

本文链接：https://blog.csdn.net/YBH1916326465/article/details/128154164

版权

python笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

python爬虫正方教务系统许昌学院
来自许昌学院的大四小菜鸡,疫情封在宿舍,闲来无事在宿舍爬了一下之前没成功的教务系统爬虫,当时觉得挺难的,今天发现这个还是挺简单的,这个程序参考了很多前辈大佬们的程序和思路,我也给代码发出来方便各位拿来学习交流,有什么不懂的地方欢迎在评论区留言,看到留言我会第一时间回复

爬取数据流程

1.找到目标网站

我们学校用的是新版正方教务系统,长这个样子,相信也有不少同学学校用的同款的教务系统,一到选课贼卡,还老是挂(吐槽一下)

在这里插入图片描述

2.抓包接口

网页抓包相信很多童鞋是会的,这里我用浏览器自带的抓包工具,我用的是win10自带的Edge
F12打开浏览器开发者工具,点击网络,先输入一个错的账号密码,查看抓包情况
在这里插入图片描述
可以看到有一个post请求,点开查看

这不就是用户名还有加密后的密码吗??,再通过接口名也不难看出,这是一个接口
那这个密码应该怎么加密呢?
我们再js代码里面找找

看这里引入的加密库,是rsa加密,那么现在我们要做的就是获取公钥,对密码进行加密.

还是刚刚抓到的接口,里面有一个链接:
在这里插入图片描述

3.登录参数分析

有了这个公钥接口,我们就能对密码进行加密了,不过在写程序的时候发现一个坑.就是那个exponent好像并没什么用,我也不知道咋回事,反正参考了前辈的代码发现并没用上,而且他也在这个地方被坑住了.
有了这些,登录需要提交的参数我们都已经知道三个了,分别是language(语言),yhm(用户名),mm(加密后的密码),还差一个csrftoken,这个参数在哪里找呢?

别急,这个参数也很简单,右键打开网页源码 CTRL+F搜索csrftoken,会发现原来这个参数就在登录主页里面
在这里插入图片描述

4.程序流程思路分析

1.创建一个13位时间戳方便后续使用
2.创建一个session会话
3.添加访问教务系统必要的header请求头
4.获取公钥
5.通过公钥对明文的密码进行加密
6.获取csrftoken
7.通过session.post进行登录

经过以上步骤,我们拿到的session对话就获取了访问成绩接口的权限,理论上就可以为所欲为了,比方说可以做一个查成绩的小网站,抢课小程序什么的.

编写代码

到此为止,我们需要的参数已经全部找到,程序思路也分析完,接下来就是写代码环节

5.程序代码

#获取公钥https://jwglxt.xcu.edu.cn/jwglxt/xtgl/login_getPublicKey.html?time=1669947527543
#登录接口https://jwglxt.xcu.edu.cn/jwglxt/xtgl/login_slogin.html?time=1669947499740
import requests
import re
import time
import binascii
import rsa
#密码加秘密函数
def get_encrypted_password(pw,m):
    weibo_rsa_e = 65537
    message = str(pw).encode()
    rsa_n = binascii.b2a_hex(binascii.a2b_base64(m))
    key = rsa.PublicKey(int(rsa_n, 16),weibo_rsa_e)
    encropy_pwd = rsa.encrypt(message, key)
    the_enpassword = binascii.b2a_base64(encropy_pwd)
    return the_enpassword
pass

username = '学号'
password = '密码'
#获取当前13位时间戳
t=str(int(time.time()*1000))
#创建session会话
session=requests.session()
#设置请求头
session.headers.update({
    'Accept': 'text/html, */*; q=0.01',
	'Accept-Encoding': 'gzip, deflate',
	'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0',
	'X-Requested-With': 'XMLHttpRequest',
	'Connection': 'keep-alive',
	'Content-Length': '0',
	'Content-Type': 'application/x-www-form-urlencoded',
	'Host': 'jwglxt.xcu.edu.cn',
	'Referer': 'http://jwglxt.xcu.edu.cn/jwglxt/xtgl/index_initMenu.html?jsdm=&_t=' + t,
	'Upgrade-Insecure-Requests': '1'
})
#获取公钥
publicKey_url='https://jwglxt.xcu.edu.cn/jwglxt/xtgl/login_getPublicKey.html?time='+t
r=session.get(publicKey_url)
publicKey=r.json()
#对密码进行加密
enPassword = get_encrypted_password(password,publicKey['modulus'])
#获取csrftoken
loginPage_url='https://jwglxt.xcu.edu.cn/jwglxt/xtgl/login_slogin.html?time='+t
loginPage=session.get(loginPage_url)
loginPage.encoding = 'utf-8'
csrftoken = re.search('name="csrftoken" value="(.*?)"', loginPage.text).group(1)
#登录信息
LoginData={
    'csrftoken': csrftoken,
    'language': 'zh_CN',
    'yhm':username,
    'mm': enPassword,
    'mm': enPassword
}
#登录
res=session.post('https://jwglxt.xcu.edu.cn/jwglxt/xtgl/login_slogin.html?time='+t,LoginData)
print("============================================================================")
if re.findall('用户名或密码不正确',res.text):
    print('用户名或密码错误,请查验..')
else:
    print("登陆成功")
pass
#查询全部成绩
cj=session.post('https://jwglxt.xcu.edu.cn/jwglxt/cjcx/cjcx_cxXsgrcj.html?doType=query&gnmkdm=N305005&su='+username,
{
    'xnm': '',
    'xqm': '',
    '_search': 'false',
    'nd':t,
    'queryModel.showCount': 15,
    'queryModel.currentPage': 1,
    'queryModel.sortName':None,
    'queryModel.sortOrder': 'asc',
    'time': 5
})
cjj=cj.json()
print(cjj)
#关闭会话
session.close()