抓取网络json数据并存入mongodb（1）

最新推荐文章于 2024-07-28 02:39:28 发布

parallel0

最新推荐文章于 2024-07-28 02:39:28 发布

阅读量1.1w

点赞数

分类专栏： engineering db 文章标签： mongodb

本文链接：https://blog.csdn.net/G1Apassz/article/details/43817783

版权

本文介绍如何通过分析网络请求抓取百度opendata中的JSON数据，并使用WebMagic爬虫解析数据，存储到MongoDB数据库中。过程中涉及JSON数据的拆分、重复数据检查以及MongoDB的Java驱动操作。

摘要由CSDN通过智能技术生成

我们在百度中搜索http://shixin.court.gov.cn/ ，会有一个内嵌的查询页面：

这个是通过ajax技术加载的，因为是js渲染，所以页面源代码中并不包含这些信息。

通过Firefox的Firebug监视网络请求，发现是向百度opendata请求的，结果返回一个包含100条数据的json

这样，通过分析请求字符串的参数，自定义请求，可以通过爬虫直接爬取的数据。

有了数据之后需要解析，每次请求会返回100条数据，现在需要把这100条数据全部解除出来并存入Mongodb数据库中。

爬虫使用webmagic：https://github.com/code4craft/webmagic

数据库Mongodb驱动使用 https://github.com/mongodb/mongo-java-driver

maven坐标：

<dependencies>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.5.2</version>
        </dependency>

        <dependency&

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

parallel0

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

抓取网络json数据并存入mongodb（2）

parallel0的专栏

02-21

4591

使用webmagic网络爬虫框架抓取json数据并存入mongodb数据库

Redis/MongoDB 接口封装(C++)

10-25

最近重构并优化了一套后端服务的代码： 1. 设计并开发高效的C++对象池算法，时间复杂度为 O(1) 在整个重构框架中，对象池是负责管理内存的底层基本模块 2. 利用命令模式的思想开发 Redis 子模块抽象出方便高效的接口提供给上层程序员使用 3. 利用组合模式和装饰模式的思想开发 MongoDB 数据库查询条件装饰器将查询条件和数据库 MongodbModule 数据模型进行解耦合 4. 抽象出一套 MongoDB Module 结果集接口通过模板和特化技术实现 string/int 等不同索引类型的结果集 5. 开发 AbstractMongodbModule 类处理通用的 MongoDB 数据库表数据操作数据库中不同的表都有自己的 AbstractMongodbModule 子类对应 6. 用 Perl 开发自动代码生成器，上层程序员对照数据库表结构写 .tmpl 配置文件，自动生成该数据库表的 MongodbModule 子类，减轻程序员新增表时的工作量 7. 结合 Redis 模块和 MongoDB 模块，开发 HierarchicalModule 分层数据模型构造一个 Redis 缓存层 + MongoDB 持久层的后台 Server 架构并通过简单方便的接口供上层程序员使用，具体的数据分层处理对上层程序员是黑盒的 8. 设计并开发整套缓存层使用的 KEY 规则，方便缓存更新结合公司的数据订阅系统进行 Redis缓存层 + MongoDB 持久层数据更新功能 9. 重构后的分层数据架构比原有接口效率提高 5 - 400 倍(返回数据记录条数从 150 - 5 条) 绝大部分时间后端接口需要获取记录个数在 50 以内，所以效率提升在 100 倍左右

1 条评论您还未登录，请先登录后发表或查看评论

java 使用MongoTemplate 保存jsonArray

hi_zf的博客

04-13

1174

import org.bson.Document; ArrayList<Document> documents = new ArrayList<>();

mongodb 存储 json

最新发布

weixin_40469022的博客

07-28

【爬虫】把抓到数据存起来——爬虫绝配mongodb

dayuquan6226的博客

05-20

140

【爬虫】把抓到数据存起来——爬虫绝配mongodb 视频地址抓取数据的方法，前面的课程该讲的都已经讲了，爬取下来数据只是第一步，第二步就是要先存起来。我们最容易想到的就是存文件里喽，python写文件之前的课程也已经讲过了。存到文件里当然是可以的，但是你是否想过，每次使用都要把整个文件打开，然后读取，实在是有点不geek啊。所以我们通常会选择存进数据库，方便写入和读取数据，并...

爬取某讯视频的斗罗大陆Json评论数据到MongoDB存储数据

Mr.Pan_学狂

01-13

593

关于使用MongoDB数据库存储数据，我有一些看法，当我们爬取的过程中遇到Json格式数据，或者是字段名不统一的数据时，可以采用MongoDB进行存储，因为，MongoDB具有自增新字段名的功能，以前没有的字段可以新增，意思就是里面的数据可以是不统一字段名的数据，我先举个例子：我们先创建一个DB2数据库，并创建一个集合（数据表）tb，并且插入一条数据。结果显示，数据库创建成功。现在，我们来检验一下往集合（数据表）中插入不同字段名的数据是否对集合有影响（是否报错）。接着，我们打开DataGrip或者

Python爬虫主流存储类型(TXT,JSON,CSV,Mysql,Mongodb,Redis)实战

wardseptember的博客

01-21

850

目录写在前面一、目的二、实现1. 环境依赖2. 爬取和解析函数3. 存成TXT4. 存成JSON5. 存成CSV6. 存入mysql6.1 mysql安装与配置6.2 实现函数6.3 部分结果一览7. 存入mongodb7.1 安装与配置mongodb7.2 实现函数7.3 部分结果一览8. 存入redis数据库8.1 redis的安装与配置8.2 实现函数8.3 部分结果一览三、完整源码下载 ...

爬取链家二手房房价数据存入mongodb并进行分析

06-23

1. **Python爬虫**：Python是进行网络数据抓取的常用语言，其拥有丰富的库支持，如BeautifulSoup、Scrapy等。在这个项目中，我们可能使用requests库来发送HTTP请求获取网页内容，然后用BeautifulSoup解析HTML结构，...

python爬虫实战项目 - Scrapy抓手机App数据并存入MongoDB（今日头条）

06-24

在本项目中，我们将深入探讨如何使用Python的Scrapy框架抓取手机App数据，并将这些数据存储到MongoDB数据库中，以"今日头条"为例。这是一个典型的数据爬取和存储的实战教程，对于学习Python爬虫和NoSQL数据库的运用...

python爬虫-爬虫项目实战之Scrapy抓手机今日头条App数据并存入MongoDB.zip

03-07

在这个Python爬虫项目实战中，我们主要探讨了如何利用Scrapy框架抓取手机今日头条App的数据，并将这些数据存储到MongoDB数据库中。这个过程涵盖了多个关键知识点，包括Python编程、网络爬虫技术、Scrapy框架的使用...

python爬取数据并将其存入mongodb

热门推荐

小树苗的博客

05-05

1万+

python爬取数据并将其存入mongodb

template读取数据json

qq_22552085的博客

06-15

2328

中医体质下一步 1/6 健康问卷中医体质饮食偏向荤素均衡荤食为主素食为主 --> $(function() { chinaLoad(); }); function chinaLoad() { var url = "resources/

五.BeautifulSoup大众点评爬取店铺信息，存储到mongodb

Top_beyond的博客

06-30

1876

#coding:utf-8 from pymongo import MongoClient import requests,re from multiprocessing import Pool from bs4 import BeautifulSoup import pymongo from matplotlib import pyplot as plt #开启数据库 cn=MongoClien

将json文件导入到mongodb数据库

weixin_33810302的博客

12-23

3035

本文简述了如何通过python将json文件导入到mongodb数据库 # -*- coding:utf-8 -*- from pymongo import * import json class JsonToMongo(object): def __init__(self): ...

爬虫练习010-爬取B站视频榜单信息写入MongoDB

qq_37421963的博客

03-31

424

项目说明项目时间：2020.03.31 目标网址：https://www.bilibili.com/ranking/all/0/0/3 今天刚学了pymongo模块，爬个B站练练手吧！爬取的是这三个榜单：另外两个结构不太一样，没有一起爬，稍微改一下提取信息的部分也是可以的。项目源码： getheaders()是我自己定义的一个方法，可以换成自己的headers。 # encoding:...

MongoTemplate 插入数据 insert 和 save方法的区别

Sean'Xu Blogs

07-04

1万+

插入重复数据 insert: 若新增数据的主键已经存在，则会抛 org.springframework.dao.DuplicateKeyException 异常提示主键重复，不保存当前数据。 save: 若新增数据的主键已经存在，则会对当前已经存在的数据进行修改操作。批操作 insert: 可以一次性插入一整个列表，而不用进行遍历操作，效率相对较高。 save: 需要遍历列表，进行一个个...

使用Mongoose将JSON数据存入MongoDB

本文主要讲解如何配置Mongoose，并利用它将JSON数据直接插入或更新到MongoDB中，同时涵盖了创建目录、文件、处理POST请求以及查询数据的基本操作。 1. 配置Mongoose 首先，你需要在项目中安装Mongoose。在命令行中...