pickle模块的使用
在机器学习中,我们常常需要把训练好的模型存储起来,这样在进行决策时直接将模型读出,而不需要重新训练模型,这样就大大节约了时间。Python提供的pickle模块就很好地解决了这个问题,它可以序列化对象并保存到磁盘中,并在需要的时候读取出来,任何对象都可以执行序列化操作。
一.文件的简单操作
(1)open(path, mode)
功能:以mode方式通过path打开文件/
参数:
path: 文件的相对路径/新建一个文件
mode: 打开文件的方式
w: 写(write)
r: 读(read)
a: 添加到队尾(append)
b: 二进制(binary)
’w’和’r’的区别:
当mode为‘w’时,如果打开的文件原来有信息,则会先清空原来的信息;当mode为‘w’时,如果打开的文件原来有信息,不会影响原来的信息,而是在最后面继续写。
(2)file.close()
功能:关闭文件
注意:当通过open()方式打开文件时,在对文件处理完成之后一定要及时关闭文件。
二.pickle模块中常用的几个函数
(1)pickle.dump(obj, file, [,protocol])
功能:将obj对象序列化存入已经打开的file中。
参数:
obj想要序列化的obj对象。
file:文件名称。
protocol:序列化使用的协议。如果该项省略,则默认为3(DEFALUT_PROTOCOL),即支持python3.0以上版本。如果为负值或HIGHEST_PROTOCOL,则使用最高的协议版本。
(2)pickle.load(file)
功能: 将file中的对象序列化读出。
参数:
file: 文件名称
(3)pickle.dumps(obj[, protocol])
功能: 将obj对象序列化为string形式,而不是存入文件中。
参数:
obj: 想要序列化的obj对象。
protocal: 序列化使用的协议。如果该项省略,则默认为3(DEFALUT_PROTOCOL),即支持python3.0以上版本。如果为负值或HIGHEST_PROTOCOL,则使用最高的协议版本。
(4)pickle.loads(string)
功能: 从string中读出序列化前的obj对象。
参数:
string: 文件名称。
【注】 dump() 与 load() 相比 dumps() 和 loads() 还有另一种能力:dump()函数能一个接着一个地将几个对象序列化存储到同一个文件中,随后调用load()来以同样的顺序反序列化读出这些对象。
三.代码示例
(1)调包和数据初始化
import pickle as pkl
dataset = {0: [1, 2, 3, 4],
1: "hello",
2: "python",
3: (1, 2, 3)}
data = [3, 5, 2]
(2)实现一个obj的序列化
i)使用 pkl.dump() 和 pkl.load(),即存储到文件中再读出
#只存储一个对象到文件中
f = open("data.txt", "wb")
pkl.dump(dataset, f)
f.close()
f = open("data.txt", "rb")
a = pkl.load(f)
f.close()
print(a)
output:{0: [1, 2, 3, 4], 1: ‘hello’, 2: ‘python’, 3: (1, 2, 3)}
ii)使用 pkl.dumps() 和 pkl.loads(),即转化成string
a = pkl.dumps(dataset)
print(pkl.loads(a))
output:{0: [1, 2, 3, 4], 1: ‘hello’, 2: ‘python’, 3: (1, 2, 3)}
(3)实现多个obj的序列化
使用 pkl.dump() 和 pkl.load(),即存储到文件中再读出
f = open("data.txt", "wb")
pkl.dump(dataset, f, pkl.HIGHEST_PROTOCOL)
pkl.dump(data, f, pkl.HIGHEST_PROTOCOL)
f.close()
f = open("data.txt", "rb")
a = pkl.load(f)
b = pkl.load(f)
f.close()
print(a, '\n', b)
output:
{0: [1, 2, 3, 4], 1: ‘hello’, 2: ‘python’, 3: (1, 2, 3)}
[3, 5, 2]