Python番外篇之代码编译与字节码

最新推荐文章于 2025-03-10 21:59:21 发布

南宫理的日知录

最新推荐文章于 2025-03-10 21:59:21 发布

阅读量1.2k

点赞数 19

分类专栏：好玩好用的Python 文章标签： python 开发语言

本文链接：https://blog.csdn.net/dqrcsc/article/details/140187004

版权

好玩好用的Python 专栏收录该内容

127 篇文章

订阅专栏

引言

关于字节码，不太想讲，不影响实际使用，对新手不友好……
但是，涉及到新手经常碰到的问题的解惑，似乎又不得不讲。
最终，还是打算以番外篇的形式，稍微提一下。
不过，关于字节码的内容，我觉得在脑海里有以下几个观念，应该就够了，至于字节码的细节，能了解最好，实在不了解也不影响使用：

1、Python中一切皆对象
2、对象分为可变对象和不可变对象
3、区分重新赋值操作，还是对象本身发生变化
4、新手困惑的不可变对象的所谓的“对象修改”操作，一定是重新赋值操作，通过观察id()前后的变化，即可
5、看似简单的一行代码一般都不是一步完成，而所谓字节码指令是能看到Python一行代码背后的实现步骤

生成字节码

Python解释器为了加速执行的速度，避免从Python源代码到字节码的重复编译工作。通常来说，Python会在模块首次导入时，执行对该模块的编译工作，并保存编译结果到对应的.pyc文件中。
所以，如果没有作为模块进行到如，只是执行一个普通的脚本，是不会涉及到.pyc文件的生成的，因为Python解释器判定没有涉及模块复用，没有必要执行该项操作。

当然，除了通过import导入模块的方式，会自动生成该模块对应的.pyc文件外，我们还有其他方式，来更加灵活地控制生成.pyc文件，从而实现没有定义为模块的普通代码，也可以生成.pyc文件。

.pyc文件，一般会存储在源代码文件所在目录中的__pycache__目录中。
.pyc文件的命名，一般是：

{源代码文件名}.{Python解释器类型}_{Python版本号}.pyc

以下简单列举，除了import导入模块之外，两种生成.pyc文件的方法：

通过Python代码：

可以在代码中通过内建的模块py_compile/compileall来生成.pyc文件
比如，通过py_compile生成指定Python脚本对应的字节码文件

import py_compile

py_compile.compile('./faker_test.py')

会发现脚本所在目录中多了一个__pycache__目录，目录中多了一个名为：faker_test.cpython-311.pyc的字节码文件。
根据实际环境的Python版本，文件名后面部分可能会有些差异。

通过compileall生成指定源码目录中所有源码脚本对应的.pyc文件：

import compileall

compileall.compile_dir('./')

脚本执行完成，会对当前目录中的所有Python脚本文件，生成其对应的.pyc文件。

通过Python -m 命令

也可以通过命令的形式，进行.pyc文件的生成，如同通过Python代码的方式，也可以指定单个文件，或者指定目录：

# 生成单个脚本文件的.pyc文件
python3 -m py_compile faker_test.py
# 生成当前目录中所有脚本文件对应的.pyc文件
python3 -m compileall ./

查看字节码

关于字节码文件的结构，这里简单描述一下。
需要说明的是，Python字节码文件中，除了包含源代码对应的字节码指令、对象外，还涉及到一些元数据信息，通常作为文件头存储，主要有以下信息，不同的Python版本可能会有差异。

文件头

文件头的元数据部分，共计16个字节，主要内容有：

魔数（magic number）：用于标识当前的Python版本和字节码的格式，占用4个字节；
空字节padding：占用4个字节，当前默认均为0；
源代码最后更新时间戳：占用4个字节；
源代码文件的大小：占用4个字节，单位为byte

字节码

16字节的文件头元数据之后，就是字节码的主体部分了。主要的内容有：

co_code：字节码指令序列，每个指令都由操作码（opcode）和操作数（operand）组成；
co_consts：常量元组，包含代码中所有使用到的常量，整数、字符串、元组等；
co_names：名称元组，包含代码中使用的所有变量名、函数名等；
co_filename：源代码的文件名；
co_name：code对象的名称，通常是函数或者模块名；
co_firstlineno：代码对象的第一行行号，通常从1开始；
co_lnotab：代码行号表，用于将字节码偏移量映射到源代码中的行号

还有其他部分，就不再展开了。
下面通过代码实例，查看一个真实的.pyc文件的结构及相关内容：
首先是用于生成.pyc文件的代码示例，名为code_test.py

a = 10
b = 5
c = a + b


def my_sum(n1, n2):
    return n1 + n2

我们通过执行命令生成对应的.pyc文件：

 python3 -m compileall ./code_test.py

接下来，通过代码查看.pyc文件的内容，这部分代码可以不看，只看执行的输出结果，验证我们上面关于字节码文件结构的描述即可。

import dis
import marshal
import struct
import time
from rich import inspect

fp = open('./__pycache__/code_test.cpython-311.pyc', 'rb')
# 以下读取并输出文件头的元数据
# magic code
print(f"magic code: {struct.unpack('<l', fp.read(4))[0]}")
# padding
print(f"padding: {struct.unpack('<l', fp.read(4))[0]}")
# 源码最后更新时间
t = struct.unpack('<l', fp.read(4))[0]
print(f"last modified time: {time.asctime(time.localtime(t))}")
# 源码文件大小
print(f"file size: {struct.unpack('<l', fp.read(4))[0]} Bytes")
# 构造字节码code对象
code_obj = marshal.load(fp)
# 查看字节码对象类型
print(f"type: {type(code_obj)}")
# 通过前面介绍的rich的inspect()进行code对象的检视：
inspect(code_obj)
# 查看字节码指令序列
dis.dis(code_obj)

首先看文件头部分代码的输出：

前面4行，分别输出了4个字节的元数据内容，共计16个字节；
最后一行，为输出的code对象的类型。
对照笔者系统中的文件属性：

接下来是我们重点需要了解的字节码对象部分，这里我们使用了之前介绍过的rich模块中的inspect()函数，用于更加直观的查看该对象的结构：

最后，是我们后续查看代码执行的细节的字节码指令序列，这里我们通过内置的dis模块，来进行反编译查看：

简单说明一下字节码指令序列的输出：

第一列：源代码中的行号
第二列：字节码指令序列中的偏移，可以看出每个字节码指令长度都是两个字节
第三列：字节码操作符，如LOAD_CONST、STORE_NAME等
第四列：字节码操作数，0、1等分别为操作数在co_const或者co_names元组中的索引，()中的部分为该操作数的真实内容

我们后续的重点，主要是查看Python代码被编译为的字节码指令的查看。感兴趣的可以自行研究。

总结

其实，在真实场景中，我们需要用到字节码的地方比较少。更多的场景可能反而是在新手学习Python的过程中，遇到不理解的代码运行结果，通过查看字节码指令序列，从而更清晰地理解其中的细节。
字节码本身并不复杂，甚至关于字节码的格式、字节码指令，在不同的编程语言虚拟机中的定义，也都是大同小异的，比如Java字节码和Python字节码。关于虚拟机的实现、内存管理机制，也都是基于比较通用的垃圾回收算法的不同实现而已。
对字节码感兴趣的，可以查找更多的官网相关资料，进行进一步的研究。
说明：关于本文代码中用到的dis模块、marshal模块、struct模块、time模块等，也可以通过help()查看使用文档，或者直接查看对应的模块定义。本文的重点在于字节码文件的描述，所以就没有就这些模块的使用展开讲述，后续如果有使用的场景，再另行展开。