python3基础之--对象序列化

最新推荐文章于 2024-05-10 05:30:00 发布

LuffysMan

最新推荐文章于 2024-05-10 05:30:00 发布

阅读量694

点赞数

分类专栏： # Python 文章标签： pickle python

本文链接：https://blog.csdn.net/LuffysMan/article/details/89434246

版权

4 篇文章 0 订阅

订阅专栏

关于python对象的序列化大家一定不陌生. marshal模块, pickle模块, json模块, 都可以进行对象的序列化. luffy这里不去详细介绍这三种, 重点关注pickle模块和json模块的一些区别和各自的优势.

pickle vs marshal

python有一个更原始的序列化工具marshal, marshal 的存在主要是为了支持pyc文件, 绝大多数情况下推荐使用pickle

pickle和Json有着本质的区别, 虽然两者都可以序列化.

Json文本序列化格式, Json输出的是Unicode文本(大多数时候按照utf-8格式编码), 而pickle是二进制序列化格式, 输出的是二进制流.
Json的输出是可读的(文本形式, 不论是写到文件还是打印出来), 而pickle的输出是不可读的.
Json广泛用于各种语言之间的数据交互, 尤其是通过网络传输数据应用广泛. 而pickle只用于python应用.
Json默认只能支持有限的python内置数据类型(比如字典, list, tuple等), 而pickle可以支持extremely large number of python types, 大部分可以自动序列化, 部分复杂情况可以通过一些办法来处理.

看起来Json似乎更优, 不论是可读性还是应用的广泛性, Json都完爆呀! 但是下面的例子情况完全相反.
目标: 将一个100x100的矩阵(一张灰度图)存储到文件中.

img = np.random.randint(low=0, high=256, size=(1920,1080), dtype='uint8')

f = open('a_json.dmp', mode='w', encoding='utf-8')  
json.dump(img.tolist(), f)      #Json不支持ndarray序列化, 必须先转成其支持的格式, 比如list
f.close()

f = open('./a_pickle.dump', mode='wb')
pickle.dump(img, f, 3)
f.close()

查看文件大小:
在这里插入图片描述
pickle序列化文件大小只有Json文件的不到1/4. pickle完爆呀!

简单来讲下原因:
对于一个数字255的序列化

当然, pickle需要同时序列化一些对象结构的信息, 所以在数组很小的时候pickle体现不出优势.

在存储大规模的数字矩阵, 或者各种类型的对象的时候, 无疑是pickle更胜一筹, 但是涉及到数据在网络上的传输并且跨语言的时候, pickle就无能为力了, Json无疑是非常好的选择.

关注

专栏目录