人生苦短，我用Python--爬虫模拟登陆教务处并且保存数据到本地

最新推荐文章于 2024-04-24 22:05:32 发布

斩月sama

最新推荐文章于 2024-04-24 22:05:32 发布

阅读量7.7k

点赞数 3

分类专栏： Python 文章标签： python 爬虫数据模拟登陆

本文链接：https://blog.csdn.net/wei_smile/article/details/52091636

版权

刚开始接触Python，看很多人玩爬虫我也想玩，找来找去发现很多人用网络爬虫干的第一件事就是模拟登陆，增加点难度就是模拟登陆后在获取数据，但是网上好少有Python 3.x的模拟登陆Demo可以参考，加上自己也不怎么懂Html，所以这第一个Python爬虫写的异常艰难，不过最终结果还是尽如人意的，下面把这次学习的过程整理一下。

工具
- 系统：win7 64位系统
- 浏览器：Chrome
- Python版本：Python 3.5 64-bit
- IDE：JetBrains PyCharm (貌似很多人都用这个)

我把目标瞄准了我们的教务处，这次爬虫的目的是从教务处获取成绩并且把成绩输入Excel表格中保存起来，

我们学校教务处的地址是：http://jwc.ecjtu.jx.cn/ ，往常每次我们获取成绩都需要先进入教务处，然后点击成绩查询，输入公共的账号密码进入，最后输入相关信息获取成绩表格，这里登陆不需要验证码省了我一番功夫，这样我们先进入成绩查询系统登陆界面，先看看怎么模拟登陆这个过程，在Chrome浏览器下按F12打开开发者面板：

开发者面板

这里我们学校的教务处查询系统的密码是公共的jwc也就是拼音缩写，我们输入用户名和密码点击登陆，这时候注意POST请求：

注意post请求

发现了什么，好像Chrome并没有把Post提交的表单信息保留下来直接跳转到了另一个界面然后展示另一个界面的数据，这里就需要我们自己动手操作一下，注意开发者面板左上角的小红点表示这时候正在抓取数据，如果点击一下就会变成灰色，就可以变相地保存下当时抓取到的包，我在点击登陆后新界面未刷新出来之前点击了这个小红点，如愿以偿的得到了Post的表单数据：

得到post表单数据

这样就获取了浏览器在登陆时候向服务器传递的表单数据，看一下这个表单都有些什么：

查看表单数据

这里看到我们需要传递三个参数，分别是：user、pass、Submit，可以很容易的理解这几个单词的字面意思，这样有了思路，我们就可以写出这次代码的第一步：模拟登陆教务处

直接上代码:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import requests
url = 'http://jwc.ecjtu.jx.cn/mis_o/login.php'
datas = {
   'user': 'jwc',
         'pass': 'jwc',
         'Submit': '%CC%E1%BD%BB'
         }
headers = {
   'Referer': 'http://jwc.ecjtu.jx.cn/mis_o/login.htm',
           'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 '
                         '(KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
           'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
           'Accept-Language': 'zh-CN,zh;q=0.8',
           }
sessions = requests.session()
response = sessions.post(url, headers=headers, data=datas)
print(response.status_code)

代码输出：

说明我们模拟登陆成功了，这里用到了Requests模块，还不会使用的可以查看中文文档，它给自己的定义是：HTTP for Humans，因为简单易用易上手，我们只需要传入Url地址，构造请求头，传入post方法需要的数据，就可以模拟浏览器登陆了，这里因为有进一步获取成绩的操作所以使用了session来保持连接，这里单看最后的返回码的话我们是成功了的，具体如何还要看下一步操作，接下来：

这里为了简便代码我们设定输入学号查询所有成绩，减少其他判断，同样对Post数据进行抓包：

对post数据抓包

同样查看Post的数据：

查看post数据

因为这里就分析输入学号的情况所以其他都为空，这样我们就可以写出查询成绩的代码：

    score_healders = {
   'Connection': 'keep-alive',
                      'User - Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) '
                                      'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
                      'Content - Type': 'application / x - www - form - urlencoded',
                      'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
                      'Content - Length': '69',
                      'Host': 'jwc.ecjtu.jx.cn',
                      'Referer': 'http: // jwc.ecjtu.jx.cn / mis_o / main.php',
                      'Upgrade - Insecure - Requests': '1',
                      'Accept - Language': 'zh - CN, zh;q = 0.8'
                      }
    score_url = 'http://jwc.ecjtu.jx.cn/mis_o/query.php?start=' + str(
        pagenum) + '&job=see&=&Name=&Course=&ClassID=&Term=&StuID=' + num
    score_data = {
   'Name': '',
                  'StuID': num,
                  'Course': '',
                  'Term': '',
                  'ClassID': '',
                  'Submit': '%B2%E9%D1%AF'
                  }

    score_response = sessions.post(score_url, data=score_data, headers=score_healders)
    content = score_response.content

这里解释一下上面的代码，上面的score_url 并不是浏览器上显示的地址，我们要获取真正的地址，在Chrome下右键–查看网页源代码，找到这么一行：

最低0.47元/天解锁文章

斩月sama

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
人生苦短，我用Python--爬虫模拟登陆教务处并且保存数据到本地

刚开始接触Python，看很多人玩爬虫我也想玩，找来找去发现很多人用网络爬虫干的第一件事就是模拟登陆，增加点难度就是模拟登陆后在获取数据，但是网上好少有Python 3.x的模拟登陆Demo可以参考，加上自己也不怎么懂Html，所以这第一个Python爬虫写的异常艰难，不过最终结果还是尽如人意的，下面把这次学习的过程整理一下。工具 - 系统：win7 64位系统 - 浏览器：Chrome
复制链接

扫一扫