写在前面
已经过了一年半,网站有所改版,目前是可以正常登录的,获取信息的那几个url不是直接返回JSON了,需要自己去解析数据。
引入
与很多高校一样,西安皇家邮电大学一直钟爱于正方教务管理系统。
前一段时间爬了学校的旧版的教务系统,旧版主页
想了解更多请点击这里:爬取学校教务系统获取学生信息
不知道学校是不是把装空调的拿去买新教务系统了,新教务系统主页
可以看出,学校用的仍然是正方教务系统,不过版本升级了,新教务系统是用Java写的后台,前端用了Bootstrap框架。与旧系统相比,界面美观大方,易用性也明显提高。
准备
模拟登陆前,我们首先要清楚需要提交那些数据。
打开F12,我们在访问主页时,除了加载了JS的HTML还向服务器发送了一个get请求。
直接访问它可以获取一个json:
{
"exponent":"AQAB","modulus":"AIMNm8zi5XkWLRDUy7w6bjypS+d8ng7an00UYH8UZMhUvrDAvpuifsFu+rU6dmMFQHpHGo9ZlyEy9GWy6ev3s8ro15869OIKo\/nwexEnb8AD0DO7NaV9jzDjqRjEldAs5ct9pdjo7SxQccJYfSbFbwb6206w1q4EAwlFDvTMJfKj"}
每次获取的内容都不一样,关于这个东西的作用下面再说。
点击登陆时,可以看到向服务器发送了一个POST请求,data域中包含如下数据:
csrftoken为了防止跨站域请求伪造
yhm为输入的用户名
mm并不是我们输入的密码
通过审查主页的元素,可以找到csrftoken(每次都不一样)
与此同时,发现结尾有很多JS文件
还记得我们表单中mm很奇怪吧,那是因为明文被加密过了,加密的方式是RSA,这些js文件就是完成了加密的操作。在login.js可以发现下面几个关键:
// 获取公钥
$.getJSON(_path+"/xtgl/login_getPublicKey.html?time="+new Date().getTime(),function(data){
modulus = data["modulus"];
exponent = data["exponent"];
});
......
// 创建公钥
var rsaKey = new RSAKey();
rsaKey.setPublic(b64tohex(modulus), b64tohex(exponent));
// 对密码加密
var enPassword = hex2b64(rsaKey.encrypt($("#mm").val()));
$("#mm").val(enPassword);
$("#hidMm").val(enPassword);
加密后的密码要转化为base64的形式填充到data域中。
在登录成功后,我们可以尝试去获取相关信息。通过分析,可以发现获取这些信息的URL和所需要的Data域:
获取学籍信息:
获取课表信息
获取成绩
这里面获取信息的请求返回值都是JSON,可以根据需要,把所需要的数据解析出来。
最后要注意,访问每一个请求别忘携带Cookies。
操作
明白了登录的原理,我们来梳理一下步骤:
- 获取csrftoken和Cookies
- 请求获取PublicKey
- 利用PublicKey对登录密码加密并用Base64编码
- 进行登录
- 获取所需要的信息
看起来很顺畅的思路,但我遇到了很大的问题,主要是在对密码加密的时候,Java与JavaScript在对数据进行RSA加密有些区别:
JavaScript在加密前对数据进行了随机填充,并用RSA/None/NoPadding的填充方式来加密,每一次得到的每一次结果都不同;Java在RSA加密时默认的填充方式为RSA_PKCS1_PADDING。据说可以在Java中用第三方包来实现NoPadding的填充方式,但是我在Java使用Bouncycastle提供的NoPadding填充方式初始化公钥不成功,提示我:
RSA modulus has a small prime factor
在Java中直接运行JS文件,简单的JS还可以,如果有的JS文件中会有navigator、window,javax.script.ScriptEngine是无法解析的。
最终选择用Java将JavaScript前端加密方式实现。
public class ConnectJWGL {
private final String url = "http://www.zfjw.xupt.edu.cn";
private Map<String,String> cookies = new HashMap<>();
private String modulus;
private String exponent;
private String csrftoken;
private Connection connection;
private Connection.Response response;
private Document document;
private String stuNum;
private String password;
public ConnectJWGL(String stuNum,String password){
this.stuNum = stuNum;
this.password = password;
}
public void init() throws Exception{
getCsrftoken();
getRSApublickey();
beginLogin();
}
// 获取csrftoken和Cookies
private void getCsrftoken(){
try{
connection = Jsoup.connect(url+ "/jwglxt/xtgl/login_slogin.html?language=zh_CN&_t="+new Date().getTime());
connection.header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/20100101 Firefox/29.0");
response = connection.timeout(5000).execute();
cookies = response.cookies();
document = Jsoup.parse(response.body());
csrftoken = document.getElementById("csrftoken").val();
}catch (Exception ex){
ex.printStackTrace();
}
}
// 获取公钥并加密密码
private void getRSApublickey() throws Exception{
connection = Jsoup.connect(url+ "/jwglxt/xtgl/login_getPublicKey.html?" +
"time="+ new Date().getTime());
connection.header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/20100101 Firefox/29.0");
response = connection.cookies(cookies).ignoreContentType(true).timeout(5000).execute();
JSONObject jsonObject = JSON.parseObject(response.body());
modulus = jsonObject.getString("modulus");
exponent = jsonObject.getString("exponent");
password = RSAEncoder.RSAEncrypt(password, B64.b64tohex(modulus), B64.b64tohex(exponent));
password = B64.hex2b64(password);
}
//登录
public boolean beginLogin() throws Exception{
connection = Jsoup.connect(url+ "/jwglxt/xtgl/login_slogin.html");
connection.header("Content-Type","application/x-www-form-urlencoded;charset=utf-8");
connection.header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/20100101 Firefox