Python序列化---Pickle模块【大量数据的情况下，如何提高Python读写数据的速度？】...

最新推荐文章于 2025-05-07 22:09:57 发布

Blank_spaces

最新推荐文章于 2025-05-07 22:09:57 发布

阅读量5.1k

点赞数 3

本文链接：https://blog.csdn.net/Blank_spaces/article/details/106394548

版权

本文介绍了Python的Pickle模块，用于对象序列化和反序列化，提高大数据读写效率。Pickle相比JSON，提供更快的序列化速度，且能保存更多Python数据类型。内容涵盖Pickle的功能、好处、与JSON的比较，以及实例演示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

点击上方“潜心的Python小屋”关注我们，第一时间推送优质文章。

前言

大家好，我是潜心。最近在复现2018年阿里提出的CTR预估模型---DIN，关于原生数据的处理以及数据集的构建，因为数据量过于庞大，开源代码使用了Pickle模块。后来查阅相关资料了解后，发现原来是Python标准库中用于数据序列化的模块。在此进行总结记录。

本文约2.5k字，预计阅读10分钟。

Pickle模块---对象序列化

序列化

序列化（serialization）在计算机科学的数据处理中，是指将数据结构或对象状态转换成可取用格式（例如存成文件，存于缓冲，或经由网络中发送），以留待后续在相同或另一台计算机环境中，能恢复原先状态的过程。依照序列化格式重新获取字节的结果时，可以利用它来产生与原始对象相同语义的副本。Python编程核心的序列化机制是pickle标准库。

Pickle---Python序列化

模块 pickle 实现了对一个 Python 对象结构的二进制序列化和反序列化。 "pickling" 是将 Python 对象及其所拥有的层次结构转化为一个字节流的过程，而 "unpickling" 是相反的操作，会将（来自一个 binary file 或者 bytes-like object 的）字节流转化回一个对象层次结构。pickling（和 unpickling）也被称为序列化（和反序列化)。

注：pickle 模块并不安全。只应该对信任的数据进行unpickle操作。构建恶意的 pickle 数据来在解封时执行任意代码是可能的。绝对不要对不信任来源的数据和可能被篡改过的数据进行解封。在处理不信任数据时，更安全的序列化格式如 json更为适合。