将python对象序列化为一个字节流,最常见的方法就是使用pickle模块,为了将序列化后的字节流对象保存在一个文件中,可以这样做:
import pickle
data = ...... # some python object
f =open('somefile','wb')
pickle.dump( data, f )
data对象将以字节流的操作存储在某个文件中
为了将一个对象转储为一个字符串,可以使用 pickle.dumps()
:
s = pickle.dumps(data)
为了从字节流中恢复一个对象,使用 pickle.load()
或 pickle.loads()
函数。比如:
# Restore from a file
f = open('somefile', 'rb')
data = pickle.load(f)
# Restore from a string
data = pickle.loads(s)
对于大多数应用程序来讲,dump()
和 load()
函数的使用就是你有效使用 pickle
模块所需的全部了。 它可适用于绝大部分Python数据类型和用户自定义类的对象实例。 如果你碰到某个库可以让你在数据库中保存/恢复Python对象或者是通过网络传输对象的话, 那么很有可能这个库的底层就使用了 pickle
模块。
pickle
是一种Python特有的自描述的数据编码。 通过自描述,被序列化后的数据包含每个对象开始和结束以及它的类型信息。 因此,你无需担心对象记录的定义,它总是能工作。
你还能序列化函数,类,还有接口,但是结果数据仅仅将它们的名称编码成对应的代码对象。
有些类型的对象是不能被序列化的。这些通常是那些依赖外部系统状态的对象, 比如打开的文件,网络连接,线程,进程,栈帧等等。 用户自定义类可以通过提供 __getstate__()
和 __setstate__()
方法来绕过这些限制。 如果定义了这两个方法,pickle.dump()
就会调用 __getstate__()
获取序列化的对象。
pickle
对于大型的数据结构比如使用 array
或 numpy
模块创建的二进制数组效率并不是一个高效的编码方式。 如果你需要移动大量的数组数据,你最好是先在一个文件中将其保存为数组数据块或使用更高级的标准编码方式如HDF5 (需要第三方库的支持)。
由于 pickle
是Python特有的并且附着在源码上,所有如果需要长期存储数据的时候不应该选用它。 例如,如果源码变动了,你所有的存储数据可能会被破坏并且变得不可读取。 坦白来讲,对于在数据库和存档文件中存储数据时,你最好使用更加标准的数据编码格式如XML,CSV或JSON。 这些编码格式更标准,可以被不同的语言支持,并且也能很好的适应源码变更。