抓取网络json数据并存入mongodb(1)

我们在百度中搜索http://shixin.court.gov.cn/ ,会有一个内嵌的查询页面:


这个是通过ajax技术加载的,因为是js渲染,所以页面源代码中并不包含这些信息。

通过Firefox的Firebug监视网络请求,发现是向百度opendata请求的,结果返回一个包含100条数据的json


这样,通过分析请求字符串的参数,自定义请求,可以通过爬虫直接爬取的数据。

有了数据之后需要解析,每次请求会返回100条数据,现在需要把这100条数据全部解除出来并存入Mongodb数据库中。

爬虫使用webmagic:https://github.com/code4craft/webmagic

数据库Mongodb驱动使用 https://github.com/mongodb/mongo-java-driver

maven坐标:

<dependencies>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.5.2</version>
        </dependency>

        <dependency&
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值