抓取网络json数据并存入mongodb（1）

最新推荐文章于 2019-06-02 23:38:34 发布

VIP文章 parallel0

最新推荐文章于 2019-06-02 23:38:34 发布

阅读量1.1w

点赞数

分类专栏： engineering db 文章标签： mongodb

本文链接：https://blog.csdn.net/G1Apassz/article/details/43817783

版权

我们在百度中搜索http://shixin.court.gov.cn/ ，会有一个内嵌的查询页面：

这个是通过ajax技术加载的，因为是js渲染，所以页面源代码中并不包含这些信息。

通过Firefox的Firebug监视网络请求，发现是向百度opendata请求的，结果返回一个包含100条数据的json

这样，通过分析请求字符串的参数，自定义请求，可以通过爬虫直接爬取的数据。

有了数据之后需要解析，每次请求会返回100条数据，现在需要把这100条数据全部解除出来并存入Mongodb数据库中。

爬虫使用webmagic：https://github.com/code4craft/webmagic

数据库Mongodb驱动使用 https://github.com/mongodb/mongo-java-driver

maven坐标：

<dependencies>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.5.2</version>
        </dependency>

        <dependency&

最低0.47元/天解锁文章

parallel0

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
抓取网络json数据并存入mongodb（1）

通过mongo-java-driver，将json字符串数据直接存入mongodb
复制链接

扫一扫

专栏目录

抓取网络json数据并存入mongodb（1）

“相关推荐”对你有帮助么？