问题描述:
已有考生姓名身份证号数据,欲实现四六级成绩批量查询
解决思路:
分析成绩查询网站的请求和响应,利用python实现模拟批量访问,并利用mysql数据库进行存储。 注:上述网站只在发布成绩后一段时间内开放查询。
具体实现:
1.分析查询请求,不难发现
网站通过对https://cjcx.neea.edu.cn/xhtml1/folder/21083/9970-1.htm
(注:网站只在成绩发布的第一天开放免登录查询,其他时间段本文章本方法无效)
发出get请求来获得成绩,请求参数包括km科目,xm姓名,no号码,source来源
但是当我们直接发送get请求却得到了403报错,原因在于网站做了反爬保护,这提醒我们需要添加更多的header信息,经过实验发现决定性的标头字段是
"Referer":"https://cjcx.neea.edu.cn/&#