序列化Python对象
序列化数据最常见的做法就是使用pickle模块,要将某个对象转储到文件中,可以这样做:
import pickle
def serailize_object():
data = [1, 2, 3]
f = open('somefile', 'wb')
pickle.dump(data, f)
要将对象转储为字符串,我们可以使用pickle.dumps():
s = pickle.dumps(data)
如果我们要从字节流重新创建出对象,我们可以使用pickle.load()或者pickle.loads()函数。
# Restore from a file
f = open('somefile', 'rb')
data = pickle.load(f)
对于大部分程序来说,只要掌握dump()和load()函数的用法就可以高效地利用pickle模块了。pickle是一种Python专有的自描述式的数据编码,并且因为序列化的数据中包含有每个对象的开始和结束以及有关对象类型的信息,因此,我们不必单行应该如何定义记录,pickle就能完成了。
# Restore from a string
data = pickle.loads(s)
f = open('somedata', 'wb')
pickle.dump([1, 2, 3, 4], f)
pickle.dump('hello', f)
pickle.dump({'Apple', 'Pear', 'Banana'}, f)
f.close()
f = open('somedata', 'rb')
print(pickle.load(f))
print(pickle.load(f))
print(pickle.load(f))
if __name__ == '__main__':
serailize_object()
注意:千万不要对不信任的数据使用pickle.load()。 pickle在加载时有一个副作用就是它会自动加载相应模块并构造实例对象。 但是某个坏人如果知道pickle的工作原理, 他就可以创建一个恶意的数据导致Python执行随意指定的系统命令。 因此,一定要保证pickle只在相互之间可以认证对方的解析器的内部使用。
有些类型的对象是不能被序列化的。这些通常是那些依赖外部系统状态的对象, 比如打开的文件,网络连接,线程,进程,栈帧等等。 用户自定义类可以通过提供 __getstate__()
和 __setstate__()
方法来绕过这些限制。 如果定义了这两个方法,pickle.dump()
就会调用 __getstate__()
获取序列化的对象。 类似的,__setstate__()
在反序列化时被调用。为了演示这个工作原理, 下面是一个在内部定义了一个线程但仍然可以序列化和反序列化的类:
# countdown.py
import time
import threading
class Countdown:
def __init__(self, n):
self.n = n
self.thr = threading.Thread(target=self.run)
self.thr.daemon = True
self.thr.start()
def run(self):
while self.n > 0:
print('T-minus', self.n)
self.n -= 1
time.sleep(5)
def __getstate__(self):
return self.n
def __setstate__(self, n):
self.__init__(n)
试着运行下面的序列化试验代码:
>>> import countdown
>>> c = countdown.Countdown(30)
>>> T-minus 30 T-minus 29 T-minus 28
...
>>> # After a few moments
>>> f = open('cstate.p', 'wb')
>>> import pickle
>>> pickle.dump(c, f)
>>> f.close()
然后退出Python解析器并重启后再试验下:
>>> f = open('cstate.p', 'rb')
>>> pickle.load(f) countdown.Countdown object at 0x10069e2d0> T-minus 19 T-minus 18
...
你可以看到线程又奇迹般的重生了,从你第一次序列化它的地方又恢复过来。
pickle
对于大型的数据结构比如使用 array
或 numpy
模块创建的二进制数组效率并不是一个高效的编码方式。 如果你需要移动大量的数组数据,你最好是先在一个文件中将其保存为数组数据块或使用更高级的标准编码方式如HDF5 (需要第三方库的支持)。
由于 pickle
是Python特有的并且附着在源码上,所有如果需要长期存储数据的时候不应该选用它。 例如,如果源码变动了,你所有的存储数据可能会被破坏并且变得不可读取。 坦白来讲,对于在数据库和存档文件中存储数据时,你最好使用更加标准的数据编码格式如XML,CSV或JSON。 这些编码格式更标准,可以被不同的语言支持,并且也能很好的适应源码变更。
最后一点要注意的是 pickle
有大量的配置选项和一些棘手的问题。 对于最常见的使用场景,你不需要去担心这个,但是如果你要在一个重要的程序中使用pickle去做序列化的话, 最好去查阅一下
参考书目:
《Python CookBook》作者:【美】 David Beazley, Brian K. Jones
Github地址:
yidao620c/python3-cookbookgithub.com