最近使用java写了个爬虫,可能我对java比较熟悉,所以相对于python来说,我觉得用java写更得心应手些。
我采用的是java的jsoup,以及解析用到的json
先放上学校教务系统的url http://222.200.98.147
首先可以看到,这里是需要验证码输入的,
所以我使用了以下的思路:
第一步,先访问验证码所在的url,把图片下载到本地,然后保存cookie。
第二步,拿着验证码以及cookie去访问登录url,只要把表单里面的信息post过去后,就相当于登录了。
第三部,这个已经登录了的的cookie,就可以去访问我们想要访问的url,接着就是获取数据了。
以下是我的项目结构
Grade ----成绩的bean类
GradeHandle ---成绩的处理类
JsonHandle --- 由于成绩是以json形式返回的,所以这里需要一个Json处理类
LoginHandle ---登录处理类
Main ----主类
public String getPictureAndCookie(String urlString)throws Exception{}
获取Cookie以及验证码图片的方法,主要是使用了java的IO
成功把验证码下载到本地之后,我们要通过抓包去分析登录时要post过去的数据。抓包工具推荐burpsuite
----先写这么多吧。。下次更新。 要源码留言