Python 模拟登陆南邮智慧校园查询成绩

最新推荐文章于 2023-03-27 21:44:02 发布

不啻逍遥然

最新推荐文章于 2023-03-27 21:44:02 发布

阅读量3.2k

点赞数

文章标签： Python爬虫 python模拟登陆南京邮电大学

本文链接：https://blog.csdn.net/qq_32194791/article/details/84987622

版权

2019/8/24日已经更新，详情看后面分割线处

之前爬取智慧校园在网页登录后把cookies保存下来，放进代码里，可以运行，还以为完事了，挺简单，但是过了一段时间再运行发现，好像出现了cookies会过期的问题，再经过ctrl+U查看源代码，发现里面的这么一段：在这里插入图片描述
里面的值是很有用的
登录界面url：http://ids6.njupt.edu.cn/authserver/login?service=http%3A%2F%2Fmy.njupt.edu.cn%2Findex.do
目前更变为：http://ids6.njupt.edu.cn/authserver/login?service=http%3A%2F%2Fyjs.njupt.edu.cn%2Fepstar%2Fweb%2Fswms%2Fmainframe%2Fhome.jsp
在登录界面中打开审查元素，输入学号和密码后再点击登录
在这里插入图片描述
进入下图页面

其中Headers中的From Data是发送发post请求时要用的关键信息，而里面的lt值是会改变的，这就是为什么使用一成不变的cookies会失效的原因，这个lt值其实在登录页面的源代码中，随着你每次的访问而变化，因此关键就是找到it值

我们回到登录页面：http://ids6.njupt.edu.cn/authserver/login?service=http%3A%2F%2Fmy.njupt.edu.cn%2Findex.do

目前更变为：http://ids6.njupt.edu.cn/authserver/login?service=http%3A%2F%2Fyjs.njupt.edu.cn%2Fepstar%2Fweb%2Fswms%2Fmainframe%2Fhome.jsp
在该页面的源代码里面的lt值就是我们所需要的。
除了以上工作，我们还需要注意的是，在我们请求登录页面以获取lt值后，如果再用post发送我们构造好的表单，在这个过程中，相当于刷新了一下页面，换句换说，我们先前获得的lt值已经不再是现在的lt值了，所以这个时候我们就要用requests的session方法来保持cookie不变，session方法可以让同一个实例发出的所有请求保持相同的cookie。
参考文章：

https://blog.csdn.net/kelvinmao/article/details/51628649
https://www.cnblogs.com/wzxwhd/p/5966563.html

以下是完整代码：

import requests
from lxml import etree
def getpage(login_url,header,url):
    res_keep=requests.Session()#保持Cookie不变，然后再次访问这个页面
    ex_html=res_keep.get(login_url,headers=header).text
    html=etree.HTML(ex_html)
    value=html.xpath('//div[@class="box"]/form/input/@value')
    postdata={
        'username':'xxxxx',#此处为你的学号
        'password':'xxxxx',#你的密码
        'lt':value[0],#可变的
        'dllt':value[1],
        'execution':value[2],
        '_eventId':value[3],
        'rmShown':value[4]}
    res_post=res_keep.post(login_url,data=postdata,headers=header)#使用构建好的postdata重新登录发送post请求,用之前的res_keep进行post请求
    respond=res_keep.get(url,headers=header).text#获取到成绩页面源代码,用之前的res_keep进行get请求
    return respond

def checkgrade(page):
    html=etree.HTML(page)
    course_name=html.xpath('//td[@class="t_td"]/font[@id="kcmc"]/text()')
    course_grade=html.xpath('//td[@class="t_td"]/font[@id="cj"]/text()')
    pscj=html.xpath('//td[@class="t_td"]/font[@id="pscj"]/text()')
    qmcj=html.xpath('//td[@class="t_td"]/font[@id="qmcj"]/text()')
    k=len(course_name)
    no_grade=[];sum=0;j=0  #sum用来记录成绩的和  #j用来记录成绩已经录入的课程数目
    for i in range(k):
        if course_grade[i]=='成绩未录入':
            no_grade.append(i) #将未录入成绩所对应的i值放入no_grade列表，以便后面展示调用
        else:
            j=j+1
            sum=sum+float(course_grade[i]) #sum是数字，course_grade[i]是字符串，所以把course_grade[i]变成float型
            print('总评:%s'%course_grade[i]+' 期末:%s'%qmcj[i]+'平时:%s'%pscj[i]+'<---'+course_name[i])#打印出成绩已经录入的课程名字以及对应分数
    #以下是计算均分部分
    if j==0:#如果j==0说明成绩都还没录入
        print('所有成绩都还未出')
    else:#如果j！=0说明至少有一门成绩录入了
		print(str(j)+'门均分为:'+'%.2f'%(sum/j)+'\n')
        for each in no_grade:
            print('成绩未录入'+' <--- '+course_name[each])#打印出成绩还未录入的课程名字

if __name__ =='__main__':
    header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 Firefox/47.0'}
    login_url='http://ids6.njupt.edu.cn/authserver/login?service=http%3A%2F%2Fyjs.njupt.edu.cn%2Fepstar%2Fweb%2Fswms%2Fmainframe%2Fhome.jsp'#登录页面url
    #url是指成绩页面
    url='http://yjs.njupt.edu.cn/epstar/app/template.jsp?mainobj=YJSXT/PYGL/CJGLST/V_PYGL_CJGL_KSCJHZB&tfile=KSCJHZB_CJCX_CD/KSCJHZB_XSCX_CD_BD&filter=V_PYGL_CJGL_KSCJHZB:WID=%275m3b6a53-8l95jp-jhk08lc3-1-jidxxpoh-1i5l%27'
    page=getpage(login_url,header,url)
    if '验证码'in page:
        print('请检查用户名和密码,稍候再试!')
    else:
        checkgrade(page)

菜鸟一枚，自学python没多久，第一次写博客，水平有限，还请大神指教，轻喷

—————2019/8/24日更新———分割线——————————

官网的登录地址有变化了，然后代码稍微变化了几个地方

一个是login_url变成了 http://rzfw.njupt.edu.cn/cas/login?service=http%3A%2F%2Fyjs.njupt.edu.cn%2Fepstar%2Fweb%2Fswms%2Fmainframe%2Fhome.jsp
因为postdata就是根据login_url页面去获取的，因此post请求所需的postdata变化了
原来的postdata为：
postdata={
‘username’:‘xxxxx’,#此处为你的学号
‘password’:‘xxxxx’,#你的密码
‘lt’:value[0],#可变的
‘dllt’:value[1],
‘execution’:value[2],
‘_eventId’:value[3],
‘rmShown’:value[4]}
现在变成：
postdata={
‘username’:‘xxxxxx’,#此处为你的学号
‘password’:‘xxxxxx’,#你的密码
‘authcode’:’’,
‘execution’:value[0],
‘_eventId’:‘submit’}
这里我们要获取的 ‘execution’的值再login_url页面查看源代码可以找到：

由于它是唯一的，所以直接在input标签下的属性name="execution"的就可以找到
因此我们的变成了value=html.xpath(’//input[@name=“execution”]/@value’)
还有就是之前默认是utf-8编码格式，现在是ISO-8859-1，因此要加上respond.encoding=“utf-8”，防止中文乱码.
更新后代码如下：

import requests
from lxml import etree
def getpage(login_url,header,url):
    res_keep=requests.Session()#保持Cookie不变，然后再次访问这个页面
    ex_html=res_keep.get(login_url,headers=header).text
    html=etree.HTML(ex_html)
    value=html.xpath('//input[@name="execution"]/@value')
    postdata={
        'username':'xxxxx',#此处为你的学号
        'password':'xxxxx',#你的密码
        'authcode':'',
        'execution':value[0],
        '_eventId':'submit'}
    res_post=res_keep.post(login_url,data=postdata,headers=header)#使用构建好的postdata重新登录发送post请求,用之前的res_keep进行post请求
    respond=res_keep.get(url,headers=header)#获取到成绩页面源代码,用之前的res_keep进行get请求
    respond.encoding="utf-8"#要申明编码格式,不然中文会乱码
    return respond.text

def checkgrade(page):
    html=etree.HTML(page)
    course_name=html.xpath('//td[@class="t_td"]/font[@id="kcmc"]/text()')
    course_grade=html.xpath('//td[@class="t_td"]/font[@id="cj"]/text()')
    pscj=html.xpath('//td[@class="t_td"]/font[@id="pscj"]/text()')
    qmcj=html.xpath('//td[@class="t_td"]/font[@id="qmcj"]/text()')
    k=len(course_name)
    no_grade=[];sum=0;j=0  #sum用来记录成绩的和  #j用来记录成绩已经录入的课程数目
    for i in range(k):
        if course_grade[i]=='成绩未录入':
            no_grade.append(i) #将未录入成绩所对应的i值放入no_grade列表，以便后面展示调用
        else:
            j=j+1
            sum=sum+float(course_grade[i]) #sum是数字，course_grade[i]是字符串，所以把course_grade[i]变成float型
            print('总评:%s'%course_grade[i]+' 期末:%s'%qmcj[i]+'平时:%s'%pscj[i]+'<---'+course_name[i])#打印出成绩已经录入的课程名字以及对应分数
    #以下是计算均分部分
    if j==0:#如果j==0说明成绩都还没录入
        print('所有成绩都还未出')
    else:#如果j！=0说明至少有一门成绩录入了
        print(str(j)+'门均分为:'+'%.2f'%(sum/j)+'\n')#+'\n'表示除了打印前面的内容还会换行打印一行空白
        for each in no_grade:
            print('成绩未录入'+' <--- '+course_name[each])#打印出成绩还未录入的课程名字

if __name__ == '__main__':
    header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 Firefox/47.0'}
    login_url='http://rzfw.njupt.edu.cn/cas/login?service=http%3A%2F%2Fyjs.njupt.edu.cn%2Fepstar%2Fweb%2Fswms%2Fmainframe%2Fhome.jsp'#登录页面url
    #url是指成绩页面
    url='http://yjs.njupt.edu.cn/epstar/app/template.jsp?mainobj=YJSXT/PYGL/CJGLST/V_PYGL_CJGL_KSCJHZB&tfile=KSCJHZB_CJCX_CD/KSCJHZB_XSCX_CD_BD&filter=V_PYGL_CJGL_KSCJHZB:WID=%275m3b6a53-8l95jp-jhk08lc3-1-jidxxpoh-1i5l%27'
    page=getpage(login_url,header,url)
    if '验证码'in page:
        print('请检查用户名和密码,稍候再试!')
    else:
        checkgrade(page)

不啻逍遥然

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
1
评论
Python 模拟登陆南邮智慧校园查询成绩

Python 模拟登陆南邮智慧校园查询成绩南邮智慧校园url：http://ids6.njupt.edu.cn/authserver/login?service=http%3A%2F%2Fmy.njupt.edu.cn%2Findex.do之前爬取智慧校园在网页登录后把cookies保存下来，放进代码里，可以运行，还以为完事了，挺简单，但是过了一段时间再运行发现，好像出现了cooies会过期的...
复制链接

扫一扫