android ios 网页爬虫

最近项目中需要用到公积金相关的数据,但是公积金那边又没有提供相关的开放接口供调用,因此动手把公积金的网页抓下来对数据进行解析,拿到数据。

废话不多说,以昆明公积金为例进行分析下。

准备:

       1.昆明公积金官网:http://zfgjj.km.gov.cn/website/index.html

       2.抓包工具:httpWatch(fiddler)

       3.在线模拟get、post请求:http://www.sojson.com/httpRequest/

       4.html解析jar包:https://jsoup.org/

一般网站抓数据流程分析

                                                   

         一般的网站的流程都是这样的,我们想抓公积金的数据同样也是这个流程,所以要抓取数据必须要登录的,但是登录就要有验证码的,这样看起来难点就在模拟登录了。

         用httpwatch抓包验证了下,想拿到公积金账户信息除了必要的参数之外,还需要一个Cookie。

         这里我把爬公积金流程描述下:

         1. 调用获取验证码接口拿到sessionId

          2.调用登录接口登录,这里除了登录要传的参数外,还需要把sessionId当成Cookie传过去,这一步成功之后就可以随心所欲的拿抓包数据了,但记得拿到sessionId之后,以后调用的接口都需要带着sessionId

         3.这里你拿到的数据格式应该都是html的,你可以用jsoup去解析html的数据了。


 哈哈,这是我的处女贴,可能描述的不太详细,Androidde资源已上传到csdn,在此奉上地址:http://download.csdn.net/detail/lansetouche/9596200   

欢迎有问题和我沟通,qq:515353776


    

        

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值