python pickle允许类定义__reduce__方法来声明如何进行序列化。其返回字符串或者tuple,前者可能代表着一个python的全局变量的名称,后者则是描述在反序列化过程中如何进行重构。安全问题也是主要出在后者,本文主要针对于该情况进行pickle模块源码分析。
一、源码分析
代码结构可以分为:基础变量、自定义异常类、操作变量、序列化以及反序列化类以及普通函数。
1.1 基础变量
代码(28-57行)最先定义了部分变量,如最高协议号还有代码中使用了struct.pack()以及marshal.loads()进行序列化和反序列化,并且解释了为何用这两个函数。
1.2 自定义异常类
代码(59-85行)中自定义了4个异常类,分别为PickleError、PicklingError、UnpicklingError以及_Stop.
PickleError:PickingError和UnpicklingError的基类
PicklingError:序列化过程中异常
UnpicklingError:反序列化过程中异常
_Stop:在反序列化过程中结尾处触发该异常
1.3 操作变量
代码(99-126行)定义了操作变量,我们可以理解为操作指令,每一个变量都对应着相关操作,这些指令在序列化的过程中写入,然后在反序列化过程中读取进行对应操作;我们主要理解如下操作指令。
c:读取新的一行作为模块名module,读取下一行作为对象名object,然后将module.object压入到堆栈中。
p:将堆栈中索引为-1的对应存储入内存。
(:将一个标记对象插入到堆栈中。
t:构建