Python pickle 介绍及使用理解

最新推荐文章于 2024-06-22 19:39:32 发布

Ssuperzyl

最新推荐文章于 2024-06-22 19:39:32 发布

阅读量5.5k

点赞数 5

分类专栏： Python 文章标签： python java html

本文链接：https://blog.csdn.net/u014253768/article/details/120647310

版权

Python 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

pickle是Python的序列化库，用于将对象转化为字节流（持久化存储），便于保存和加载。与JSON相比，pickle支持更多Python数据类型，但不具有互操作性和安全性。pickle适用于大量数据的快速读写，常用于模型训练、数据处理等场景。使用方法包括序列化和反序列化数据。示例中展示了如何使用pickle保存和恢复DataFrame。

摘要由CSDN通过智能技术生成

最近用到 pickle , 查询了网络博客的资料，整理了下 pickle 的作用，和使用场景，

一，pickle的说明介绍

一种数据的持久化保存方式

1.1 从序列化方向理解pickle

一般序列化流程：

对象1--序列化--> 字符串 -->反序列化--> 对象2（即原对象1）

从本质上来说，pickle 是python 自带的序列化方案，对python 对象有很好支持，

从序列化角度，和JSON，XML, YAML 区别不大。

pickle与json区别:

Pickle 协议和 JSON (JavaScript Object Notation) 间有着本质的不同：

JSON 是一个文本序列化格式（它输出 unicode 文本，尽管在大多数时候它会接着以 utf-8 编码），而 pickle 是一个二进制序列化格式；
JSON 是我们可以直观阅读的，而 pickle 不是；
JSON是可互操作的，在Python系统之外广泛使用，而pickle则是Python专用的；
默认情况下，JSON 只能表示 Python 内置类型的子集，不能表示自定义的类；但 pickle 可以表示大量的 Python 数据类型（可以合理使用 Python 的对象内省功能自动地表示大多数类型，复杂情况可以通过实现 specific object APIs 来解决）。
不像pickle，对一个不信任的JSON进行反序列化的操作本身不会造成任意代码执行漏洞。

，参考：pickle --- Python 对象序列化与JSON模块比较

1.2 python 中file

与pickle的区别
本质区别就是：存取类型，读取速度（两方面）
a) pickle可以保存任何数据格式的数据，在经常存取的场景（保存和恢复状态）下读取更加高效
b) file则是只能读取和存储字符串格式的数据，适用于小场景，读取不那么频繁、数据格式不那么复杂

说下open函数作用：
open函数则是将当前读取的数据/状态存储到内存中，然后方便调用其他函数（file，pickle函数）写入或者读取

二，pickle的使用方法

import pandas as pd
import numpy as np
import pickle

data = pd.DataFrame(np.arange(16).reshape(4,4),index = list("ABCD"),columns=list('wxyz'))
print('raw_data:\n',data)
pkl_file = open('D:/save_file', 'wb')
pickle.dump(data,pkl_file,pickle.HIGHEST_PROTOCOL)
pkl_file.close()

pkl_file_rb = open(r'D:/save_file', 'rb')
new_data =pickle.load(pkl_file_rb)
print('new_data:\n',new_data)

三，pickle的使用场景

3.1 训练模型，数据处理等，中间数据计算过程保存

3.2 大规模数据，多次读写调度等，减少加载时间，

参考：

Python中 pickle有什么意义，pickle了再恢复？ - 知乎

Ssuperzyl

关注

5
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
Python pickle 介绍及使用理解

最近用到 pickle , 查询了网络博客的资料，整理了下 pickle 的作用，和使用场景，一，pickle的说明介绍一种数据的持久化保存方式1.1 从序列化方向理解pickle一般序列化流程：对象1--序列化--> 字符串 -->反序列化--> 对象2（即原对象1）从本质上来说，pickle 是python 自带的序列化方案，对python 对象有很好支持，从序列化角度，和JSON，XML, YAML 区别不大。pickle与json区别:Pi..
复制链接

扫一扫

专栏目录