使用python-requests爬虫模拟登陆中国海洋大学教务处网站

最新推荐文章于 2021-07-27 15:46:16 发布

qq_42804636

最新推荐文章于 2021-07-27 15:46:16 发布

阅读量1k

点赞数 5

分类专栏： python 文章标签： python 网络爬虫模拟登陆教务处 requests

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42804636/article/details/101102021

版权

本文详细介绍了如何利用Python的requests库模拟登录中国海洋大学教务处网站的过程，包括分析网页源代码，理解表单数据，模拟加密方式，获取sessionid和验证码，以及最终提交表单的步骤。

摘要由CSDN通过智能技术生成

python的第三方库Requests是一个简单而且实用的网络爬虫库，今天，我将为大家演示如何通过requests爬虫实现模拟登录中国海洋大学教务处网站。

程序流程：

1、引入需要的外部库。

import requests
import base64
import re
import time
import hashlib
import os

2、分析网页源代码和所提交的表单。

通过谷歌浏览器查看登录过程中提交的表单：

可以看出，教务处网站提交的表单里包含七个项目。下面，去源代码中寻找它们。当你在查找的时候，你可能会发现，当自己右键时，并无选项弹出，在这种情况下，可以打开谷歌开发者工具，点击Source，你就可以找到网站的源文件了。
在主页的源代码中：使用Ctrl+F寻找，输入form，可以查询到与表单相关的代码。我们发现：表单提交的内容基本已经被包含在内，我们记住这些标签的id和name属性值，在其他文件或者位置，查看js的处理方式。
在这里插入图片描述
在主页的源代码中，我们发现通过script标签定义的js语句，里面调用了我们记住的id，可以发现，这就是我们表单需要的 txt_mm_userzh、txt_mm_length和txt_mm_expression的来源。

当我们看完整个主页，发现并没有其他的表单数据，这时候，我们需要查看主页源代码中引入的js文件。如果你有一定的基础知识，你可以很容易的知道jquery.js、md5.js、base64.js是JavaScript的插件，不用去管。下面我们一个个查看其他的js文件代码。
当你看到LoginExt.js?version=2017112101这个文件的时候：
在这里插入图片描述

最低0.47元/天解锁文章

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。