Python3网络爬虫实战-33、数据存储:非关系型数据库存储:MongoDB

本文介绍了Python3环境下使用MongoDB进行非关系型数据库存储的操作,包括准备工作、连接MongoDB、指定数据库和集合、插入、查询、计数、排序、偏移、更新和删除等步骤。MongoDB因其灵活性适合存储爬虫数据,避免了关系型数据库建表和序列化的繁琐。文章详细展示了PyMongo库的各种操作方法,并提供了实例代码。
摘要由CSDN通过智能技术生成

NoSQL,全称 Not Only SQL,意为不仅仅是 SQL,泛指非关系型的数据库。NoSQL 是基于键值对的,而且不需要经过 SQL 层的解析,数据之间没有耦合性,性能非常高。

非关系型数据库又可以细分如下:

  • 键值存储数据库,代表有 Redis, Voldemort, Oracle BDB 等。
  • 列存储数据库,代表有 Cassandra, HBase, Riak 等。
  • 文档型数据库,代表有 CouchDB, MongoDB 等。
  • 图形数据库,代表有 Neo4J, InfoGrid, Infinite Graph等。

对于爬虫的数据存储来说,一条数据可能存在某些字段提取失败而缺失的情况,而且数据可能随时调整,另外数据之间能还存在嵌套关系。如果我们使用了关系型数据库存储,一是需要提前建表,二是如果存在数据嵌套关系的话需要进行序列化操作才可以存储,比较不方便。如果用了非关系数据库就可以避免一些麻烦,简单高效。

本节我们主要介绍一下 MongoDB 和 Redis 的数据存储操作。

MongoDB存储

MongoDB 是由 C++ 语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类似 Json 对象,它的字段值可以包含其他文档,数组及文档数组,非常灵活,在这一节我们来看一下 Python3 下 MongoDB 的存储操作。

1. 准备工作

在本节开始之前请确保已经安装好了 MongoDB 并启动了其服务,另外安装好了 Python 的 PyMongo库,如没有安装可以参考第一章的安装过程。

2. 连接MongoDB

连接 MongoDB 我们需要使用 PyMongo 库里面的 MongoClient,一般来说传入 MongoDB 的 IP 及端口即可,第一个参数为地址 host,第二个参数为端口 port,端口如果不传默认是 27017。

import pymongo
client = pymongo.MongoClient(host='localhost', port=27017)

这样我们就可以创建一个 MongoDB 的连接对象了。

另外 MongoClient 的第一个参数 host 还可以直接传MongoDB 的连接字符串,以 mongodb 开头,例如:

client = MongoClient('mongodb://localhost:27017/')

可以达到同样的连接效果。

3. 指定数据库

MongoDB 中还分为一个个数据库,我们接下来的一步就是指定要操作哪个数据库,在这里我以 test 数据库为例进行说明,所以下一步我们需要在程序中指定要使用的数据库。

db = client.test

调用 client 的 test 属性即可返回 test 数据库,当然也可以这样来指定:

db = client['test']

两种方式是等价的。

4. 指定集合

MongoDB 的每个数据库又包含了许多集合 Collection,也就类似与关系型数据库中的表,下一步我们需要指定要操作的集合,在这里我们指定一个集合名称为 students,学生集合,还是和指定数据库类似,指定集合也有两种方式:

collection = db.students

collection = db['students']

这样我们便声明了一个 Collection 对象。

5. 插入数据

接下来我们便可以进行数据插入了,对于 students 这个Collection,我们新建一条学生数据,以字典的形式表示:

student = {
    'id': '20170101',
    'name': 'Jordan',
    'age': 20,
    'gender': 'male'
}
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

在这里我们指定了学生的学号、姓名、年龄和性别,然后接下来直接调用 collection 的 insert() 方法即可插入数据,代码如下:

result = collection.insert(student)
print(result)

在 MongoDB 中,每条数据其实都有一个 _id 属性来唯一标识,如果没有显式指明 _id,MongoDB 会自动产生一个 ObjectId 类型的 _id 属性。insert() 方法会在执行后返回的 _id 值。

运行结果:

5932a68615c2606814c91f3d

当然我们也可以同时插入多条数据,只需

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值