写在前面:使用了python进行爬虫之后,发现还没用过我的老本行php进行爬取过,加上大四狗刚开学就遇到坑*的所谓的实训,又不能出去找实习,于是只能自娱自乐,刚好看到最近学校经营的公众号,有绑定学号,然后查询各种东西的功能,于是想模仿这个功能来做。功能界面借助Tp进行开发,也是比较快速,后续再贴出代码逻辑。这里只讲我研究了两天的curl。模拟登陆的实现过程
目标:模拟登陆学校教务网
原理:提交账户密码,验证通过,保存cookie,再携带cookie访问其他页面
过程:
1.先研究网站的数据流
学校的教务网络管理系统是青果的,然而我在网上找了一下青果的网站,发现学校自己弄了一个统一认证登陆,本来想参考下网上关于青果模拟登陆的尝试失败
学校的认证登录页面是这样的:
然后,使用火狐的firebug对整个登陆进行的进行了分析,记得点击保持,整个过程会比较清晰,因为网页会重定向
如图所示:
点击post查看,我们需要提交的数据有这些
然后在登陆的页面我找到了这些字段,而且__RequestVerificationToke是一个安全加密手段,每次刷新都不同,要怎么获取了,这里可以使用simple_html_dom对第一次访问登陆页面进行正则匹配获得
接着,我发现,post之后还有两次get数据,查看之后发现有两次网页重定向,而且携带的cookie会变,最后能够访问教务管理系统主页的是最后一次生成的cookie,因此需要获取到最后一次重定向的cookie
完整的流程就是:
先get到登陆页,获取__RequestVerificationToke的值