最近上课总是记不住是哪个教室,感觉每次都要人工登陆教务处网站去查教室很麻烦。正好在学习爬虫,于是想直接写个爬虫去帮我查课表信息岂不美哉?
说干就干。使用requests,个人感觉比较好用的第三方库,基于py3;解析用beautifulsoup。打开Chorme,登陆南理工的教务处网站并跟踪登陆过程的网络行为。
可以看见,需要输入的信息有三样。用户名和密码好办,主要是验证码的及时识别。拟采取的策略为:下载验证码文件到本地,然后再人工输入。点击登陆,继续跟踪网络行为,发现在此输入的数据(连同其他一些附带数据)被post到了http://gsmis.njust.edu.cn/中。
进一步查看这个post的FormData就可以找到这三个数据了,分别为UserName,PassWord以及ValidateCode。