最近项目中需要用到公积金相关的数据,但是公积金那边又没有提供相关的开放接口供调用,因此动手把公积金的网页抓下来对数据进行解析,拿到数据。
废话不多说,以昆明公积金为例进行分析下。
准备:
1.昆明公积金官网:http://zfgjj.km.gov.cn/website/index.html
2.抓包工具:httpWatch(fiddler)
3.在线模拟get、post请求:http://www.sojson.com/httpRequest/
4.html解析jar包:https://jsoup.org/
一般网站抓数据流程分析
一般的网站的流程都是这样的,我们想抓公积金的数据同样也是这个流程,所以要抓取数据必须要登录的,但是登录就要有验证码的,这样看起来难点就在模拟登录了。
用httpwatch抓包验证了下,想拿到公积金账户信息除了必要的参数之外,还需要一个Cookie。
这里我把爬公积金流程描述下:
1. 调用获取验证码接口拿到sessionId
2.调用登录接口登录,这里除了登录要传的参数外,还需要把sessionId当成Cookie传过去,这一步成功之后就可以随心所欲的拿抓包数据了,但记得拿到sessionId之后,以后调用的接口都需要带着sessionId
3.这里你拿到的数据格式应该都是html的,你可以用jsoup去解析html的数据了。
哈哈,这是我的处女贴,可能描述的不太详细,Androidde资源已上传到csdn,在此奉上地址:http://download.csdn.net/detail/lansetouche/9596200
欢迎有问题和我沟通,qq:515353776