爬取的网址:http://jwxt.gdufe.edu.cn/jsxsd/
最近在研究python爬虫,就拿了自己学校的一个相当于教务系统的东西?来模拟登陆了一下。网上查了一下资料,
教务系统好像通常都是爬虫新手&学生的挚爱,因为登陆简单不用验证码等等等。。
其实这个还是挺简单的,但是我在分析HTTP的请求和响应的时候中了一个坑,所以搞了一天。。真是弱,好烦
先说说用到的python库是urllib.request和http.cookiejar。模拟登陆需要使用cookie去保持登陆的状态,若不懂就自行百度。
这里主要想聊一聊如何抓包和分析HTTP请求和响应的消息头。
先看看这个系统的登陆界面: