一个爬进正方教务系统的爬虫的诞生

本文介绍了如何使用Python爬虫登录正方教务系统,包括准备工作、查看和填充表单、登录过程。重点讲解了处理__VIEWSTATE和验证码的策略,以及登录时的HTTP头设置。注意,正方系统采用gb2312编码,需进行相应转换。
摘要由CSDN通过智能技术生成

我的新博客地址:

http://jujuba.me/ 

0x00. 准备工作

工具:
  • chrome
  • python
  • 一些python库,主要是requests

要想爬进教务系统,首先要知道教务系统的网址对吧。

这边可以看到网址是http://jwgl.bistu.edu.cn。但是,机智的人都会发现,当你将这个url输入地址栏并按下回车时,网址变了,变成了形如http://jwgl.bistu.edu.cn/(d5njjm552sqn0j45ijyef3jn)/default2.aspx这样的地址。多试几次后发现括号内的值一直在变,是一个随机生成的值,但是呢,url里直接带上这个随机生成的值也可以访问同一个页面。这样就比较好办了,直接第一次访问后将括号里的值用正则匹配并保存下来即可。目测这个东西是用来防爬虫的

0x01. 查看表单

首先,需要准备一个chrome,firefox也可以,这边用chrome讲解。

进到

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值