最近在学习Python爬虫处理表单登录的知识,就想到了拿学校的教务系统来试手。经过调查发现学校的教务系统登录有如下特点:
- 有两个登录页面,一个页面是需要输入账号密码以及四位字符验证码,另一个页面只需要账号密码不需要验证码。
- 两个登录页面表单提交的地址不一样,但是都需要encoded字段,然而encoded是经过js加密处理得到的复杂字符串。
- 需要验证码的那个登录页面是当你提交表单的时候会先向服务器发送GET请求得到一个以’#’分割的字符串,分为前后两部分,分割后得到两个字符串。然后将账号和密码以”%%%”进行连接得到新的字符串,之后遍历新字符串,结合之前从服务器请求返回的字符串以一定的规则进行加密,加密结果作为encoded字段的值。
- 不需要验证码的那个登录页面则是通过调用一个js加密函数先将账号加密,然后调用同样的js加密函数将密码加密,两部分通过”%%%”进行连接作为encoded字段的值。
所以现在有两个登录方式可以模拟登录到系统。如果使用有验证码那个action进行模拟登录,加密规则其实相对来说翻译成Python代码比较简单,然后验证码可以使用一些OCR库来进行识别,最后可以轻易的登录到系统;如果使用没有验证码的那个登录页面那么主要得把那个几十行的js加密函数进行理解翻译成Python代码?有没有不用理解它加密逻辑的方法?于是我想到了一种方式就是网页+webservice的方式,在前端调用js加密函数来生成encoded字符串,后台编写api提供集成处理,也正好可以实践最近学习的SOA课程。
时间原因,目前只实现了登录部分(带验证码登录和不带验证码登录),之后有时间会把这个完整实现,github地址