Python模块:三个数据序列化模块【json模块、pickle模块、shelve模块】

在这里插入图片描述

参考原文:https://www.cnblogs.com/yyds/p/6563608.html

一、了解数据和认识json数据

1.数据的分类

种类特点
结构化数据数据以行为为单位,一行数据表示一个实体信息,每一行的数据饿属性是相同的。常见关系型数据库中以表存储的数据就是结构化数据
半结构化数据结构化数据的一种形式,并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含祥光标记,用来分隔个语义元素以及对记录和字段进行分层,因此也被称为自描述的结构。常见的半结构化数据有:xml,html,json
非结构化数据1.没有固定的结构,常见的非结构化数据有:文档,图片和视频等。 2.对于分结构数据,一般我们整体存储二进制格式

2.json数据

  • Json是对js对象的字符串表达式,它使用文本形式表示一个JS对象的信息,本质上上一个字符串。
  • js的对象就相当于python中的字典
  • js的数据相当于python中的列表
  • 因为json用来存储js的对象或者数组,所以在python中我们可以将json转换为list或者dict

二、了解为什么要对数据进行序列化

1.为什么要对数据进行序列化?

如果要将一个系统内的数据通过网络传输给其它系统或客户端,我们通常都需要先把这些数据转化为字符串或字节串,而且需要规定一种统一的数据格式才能让数据接收端正确解析并理解这些数据的含义。现在我们常常使用的数据交换格式是 JSON

2.序列化和反序列化

  • 将对象转换为可通过网络传输或可以存储到本地磁盘的数据格式(如:XML、JSON或特定格式的字节串)的过程称为序列化
  • 反之,则称为反序列化。

3.Python中的常见序列化模块

模块描述方法
json用于实现Python数据类型与通用(json)字符串之间的转换dumps()dump()loads()load()
pickle用于实现Python数据类型与Python特定二进制格式之间的转换dumps()dump()loads()load()
shelve专门用于将Python数据类型的数据持久化到磁盘,shelve是一个类似dict的对象,操作十分便捷open()

三、json模块介绍

大部分编程语言都会提供处理json数据的接口,Python 2.6开始加入了json模块,且把它作为一个内置模块提供,无需下载即可使用。

1.函数介绍

1.1 常见函数

import json

json.dumps(python的list或者dict)---->(返回值)---->json字符串

json.loads(json字符串)---->(返回值)----->python的list或者dict

json.dump(list/dict,fp)--->list,或者字典保存到json文件中。

json.load(fp)--->list/dict:从json文件中读出json数据

2.使用示例

dic={
    'a':'str中国', 
    'c': True,
    'e': 10, 
    'b': 11.1,
    'd': None,
    'f': [1, 2, 3],
    'g':(4, 5, 6)
}

# 序列化到文件中
with open('test.json', 'w') as fp:
    json.dump(dic, fp, indent=4)

# 反序列化文件中的内容
with open('test.json', 'r') as fp:
    json.load(fp)

3.一些注意事项

  • Python的 dict中的非字符串key被转换成JSON字符串时都会被转换为小写字符串;
  • Python中的tuple,在序列化时会被转换为array,但是反序列化时,array会被转化为list;
  • 对于Python内置的数据类型(如:str, unicode, int, float, bool, None, list, tuple, dict)json模块可以直接进行序列化/反序列化处理;

四、pickle模块介绍

1.什么是pickle

pickle模块实现了用于对Python对象结构进行 序列化 和 反序列化 的二进制协议,与json模块不同的是pickle模块序列化和反序列化的过程分别叫做 pickling 和 unpickling:

  • pickling: 是将Python对象转换为字节流的过程;
  • unpickling: 是将字节流二进制文件或字节对象转换回Python对象的过程;

2.pickle模块与json模块对比

  • JSON是一种文本序列化格式(它输出的是unicode文件,大多数时候会被编码为utf-8),我们可以读懂;
  • pickle是二进制序列化格式,我们无法读懂;
  • JSON是与特定的编程语言或系统无关的,且它在Python生态系统之外被广泛使用,而pickle使用的数据格式是特定于Python的;
  • 默认情况下,JSON只能表示Python内建数据类型,对于自定义数据类型需要一些额外的工作来完成;pickle可以直接表示大量的Python数据类型,包括自定数据类型(其中,许多是通过巧妙地使用Python内省功能自动实现的;复杂的情况可以通过实现specific object API来解决)

3.pickle模块提供的相关函数

pickle模块提供的几个序列化/反序列化的函数与json模块基本一致:

# 将指定的Python对象通过pickle序列化作为bytes对象返回,而不是将其写入文件
dumps(obj, protocol=None, *, fix_imports=True)

# 将通过pickle序列化后得到的字节对象进行反序列化,转换为Python对象并返回
loads(bytes_object, *, fix_imports=True, encoding="ASCII", errors="strict")

# 将指定的Python对象通过pickle序列化后写入打开的文件对象中,等价于`Pickler(file, protocol).dump(obj)`
dump(obj, file, protocol=None, *, fix_imports=True)

# 从打开的文件对象中读取pickled对象表现形式并返回通过pickle反序列化后得到的Python对象
load(file, *, fix_imports=True, encoding="ASCII", errors="strict")

五、shelve模块

1.概念介绍

shelve是一个简单的数据存储方案,类似key-value数据库,可以很方便的保存python对象,其内部是通过pickle协议来实现数据序列化。shelve只有一个open()函数,这个函数用于打开指定的文件(一个持久的字典),然后返回一个shelf对象。shelf是一种持久的、类似字典的对象。

2.open函数

open(filename, flag='c', protocol=None, writeback=False)
  • protocol 参数表示序列化数据所使用的协议版本,默认是pickle v3;

  • writeback 参数表示是否开启回写功能。

  • flag 参数表示打开数据存储文件的格式

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BELuCKVi-1606199239362)(C:\Users\qinfan\AppData\Roaming\Typora\typora-user-images\1606198965785.png)]

3.使用示例

# 保存数据
with shelve.open('student') as db:
    db['name'] = 'Tom'
    db['age'] = 19
    db['hobby'] = ['篮球', '看电影', '弹吉他']
    db['other_info'] = {'sno': 1, 'addr': 'xxxx'}

# 读取数据
with shelve.open('student') as db:
    for key,value in db.items():
        print(key, ': ', value)

结果:

name :  Tom
age :  19
hobby :  ['篮球', '看电影', '弹吉他']
other_info :  {'sno': 1, 'addr': 'xxxx'}

六、三个模块的总结

1. 对比

  • json模块常用于编写web接口,将Python数据转换为通用的json格式传递给其它系统或客户端;也可以用于将Python数据保存到本地文件中,缺点是明文保存,保密性差。另外,如果需要保存非内置数据类型需要编写额外的转换函数或自定义类。

  • pickle模块和shelve模块由于使用其特有的序列化协议,其序列化之后的数据只能被Python识别,因此只能用于Python系统内部。另外,Python 2.x 和 Python3.x 默认使用的序列化协议也不同,如果需要互相兼容需要在序列化时通过protocol参数指定协议版本。除了上面这些缺点外,pickle模块和shelve模块相对于json模块的优点在于对于自定义数据类型可以直接序列化和反序列化,不需要编写额外的转换函数或类。

  • shelve模块可以看做是pickle模块的升级版,因为shelve使用的就是pickle的序列化协议,但是shelve比pickle提供的操作方式更加简单、方便。shelve模块相对于其它两个模块在将Python数据持久化到本地磁盘时有一个很明显的优点就是,它允许我们可以像操作dict一样操作被序列化的数据,而不必一次性的保存或读取所有数据。

2. 建议

  • 需要与外部系统交互时用json模块;
  • 需要将少量、简单Python数据持久化到本地磁盘文件时可以考虑用pickle模块;
  • 需要将大量Python数据持久化到本地磁盘文件或需要一些简单的类似数据库的增删改查功能时,可以考虑用shelve模块。

3. 附录

要实现的功能可以使用的api
将Python数据类型转换为(json)字符串json.dumps()
将json字符串转换为Python数据类型json.loads()
将Python数据类型以json形式保存到本地磁盘json.dump()
将本地磁盘文件中的json数据转换为Python数据类型json.load()
将Python数据类型转换为Python特定的二进制格式pickle.dumps()
将Python特定的的二进制格式数据转换为Python数据类型pickle.loads()
将Python数据类型以Python特定的二进制格式保存到本地磁盘pickle.dump()
将本地磁盘文件中的Python特定的二进制格式数据转换为Python数据类型pickle.load()
以类型dict的形式将Python数据类型保存到本地磁盘或读取本地磁盘数据并转换为数据类型shelve.open()
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Pythonpickle模块是用来实现序列化的,即将Python的对象转换成字节流,方便存储和传输。pickle模块支持多种协议,其协议0是最早的版本,协议1和协议2是Pyhton2引入的,协议3是Python3.0引入的,协议4是Python3.4引入的,每个协议都有其特点和适用范围。 下面我们来详细了解一下pickle模块的使用方法和各个协议的特点。 ## 基本用法 pickle模块提供了dumps、dump、loads和load四个函数,分别用来进行序列化和反序列化操作。其dumps和loads函数可以直接将对象转换成字节流或将字节流转换成对象,而dump和load函数则可以将对象序列化到文件或从文件序列化对象。 ### 序列化Python对象转换成字节流的过程称为序列化,可以使用dumps函数实现: ```python import pickle data = {'name': 'Tom', 'age': 18, 'gender': 'male'} bytes_data = pickle.dumps(data) print(bytes_data) ``` 输出结果为: ``` b'\x80\x04\x95\x17\x00\x00\x00\x00\x00\x00\x00}\x94(\x8c\x04name\x94\x8c\x03Tom\x94\x8c\x03age\x94K\x12\x8c\x06gender\x94\x8c\x04male\x94u.' ``` 可以看到,data字典被转换成了一串二进制的字节流。 ### 反序列化 将字节流转换成Python对象的过程称为反序列化,可以使用loads函数实现: ```python import pickle bytes_data = b'\x80\x04\x95\x17\x00\x00\x00\x00\x00\x00\x00}\x94(\x8c\x04name\x94\x8c\x03Tom\x94\x8c\x03age\x94K\x12\x8c\x06gender\x94\x8c\x04male\x94u.' data = pickle.loads(bytes_data) print(data) ``` 输出结果为: ``` {'name': 'Tom', 'age': 18, 'gender': 'male'} ``` ### 文件操作 除了使用dumps和loads函数进行序列化和反序列化操作外,pickle模块还提供了dump和load函数用于将对象序列化到文件或从文件序列化对象。 将对象序列化到文件: ```python import pickle data = {'name': 'Tom', 'age': 18, 'gender': 'male'} with open('data.pkl', 'wb') as f: pickle.dump(data, f) ``` 从文件序列化对象: ```python import pickle with open('data.pkl', 'rb') as f: data = pickle.load(f) print(data) ``` ## 协议0 协议0是最早的版本,它使用ASCII码来表示序列化后的对象,因此序列化后的数据比较大。使用协议0时,可以指定文件打开模式为't',表示以文本模式打开文件: ```python import pickle data = {'name': 'Tom', 'age': 18, 'gender': 'male'} with open('data.pkl', 'wt') as f: pickle.dump(data, f, protocol=0) with open('data.pkl', 'rt') as f: data = pickle.load(f) print(data) ``` 输出结果为: ``` {'age': 18, 'gender': 'male', 'name': 'Tom'} ``` ## 协议1 协议1和协议2是Python2引入的,它们使用更紧凑的二进制格式表示序列化后的对象。协议1可以指定文件打开模式为'wb',表示以二进制模式打开文件: ```python import pickle data = {'name': 'Tom', 'age': 18, 'gender': 'male'} with open('data.pkl', 'wb') as f: pickle.dump(data, f, protocol=1) with open('data.pkl', 'rb') as f: data = pickle.load(f) print(data) ``` 输出结果为: ``` {'name': 'Tom', 'age': 18, 'gender': 'male'} ``` ## 协议2 协议2是协议1的改进版本,它支持新的对象类型,如集合、字典等。在Python2,协议2是默认使用的协议,如果不指定协议号,则使用协议2。 在Python3pickle模块默认使用协议3,但仍然可以使用协议2: ```python import pickle data = {'name': 'Tom', 'age': 18, 'gender': 'male'} with open('data.pkl', 'wb') as f: pickle.dump(data, f, protocol=2) with open('data.pkl', 'rb') as f: data = pickle.load(f) print(data) ``` 输出结果为: ``` {'name': 'Tom', 'age': 18, 'gender': 'male'} ``` ## 协议3 协议3是Python3.0引入的,它支持更多的对象类型,如bytes、bytearray、set等。在Python3,协议3是默认使用的协议,因此可以省略protocol参数: ```python import pickle data = {'name': 'Tom', 'age': 18, 'gender': 'male'} with open('data.pkl', 'wb') as f: pickle.dump(data, f) with open('data.pkl', 'rb') as f: data = pickle.load(f) print(data) ``` 输出结果为: ``` {'name': 'Tom', 'age': 18, 'gender': 'male'} ``` ## 协议4 协议4是Python3.4引入的,它支持更多的对象类型,如memoryview、tuple等。协议4还支持从流读取指定长度的数据,从而避免了一次性读取太多数据导致内存溢出的问题。 使用协议4时,需要将文件打开模式指定为'xb',表示以二进制模式打开文件,并且不能使用文本模式: ```python import pickle data = {'name': 'Tom', 'age': 18, 'gender': 'male'} with open('data.pkl', 'xb') as f: pickle.dump(data, f, protocol=4) with open('data.pkl', 'rb') as f: data = pickle.load(f) print(data) ``` 输出结果为: ``` {'name': 'Tom', 'age': 18, 'gender': 'male'} ``` ## 注意事项 在使用pickle模块时,需要注意以下几点: - 序列化和反序列化的对象必须是可序列化的,即不能包含不能序列化的对象。 - 序列化和反序列化的对象必须是相同的类型,否则可能会出现错误。 - 序列化和反序列化的对象必须是可信的,否则可能会被注入恶意代码。 - 不同协议之间的兼容性不同,不同协议之间的序列化和反序列化操作不一定是互逆的。因此,在使用不同协议时,需要注意协议号的兼容性和相应的操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张烫麻辣亮。

谢谢老板支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值