前言
去年11月在PyCon China 2018 杭州站分享了 Python 源码加密,讲述了如何通过修改 Python 解释器达到加解密 Python 代码的目的。然而因为笔者拖延症发作,一直没有及时整理成文字版,现在终于战胜了它,才有了本文。
本文将首先介绍下现有源码加密方案的思路、方法、优点与不足,进而介绍如何通过定制 Python 解释器来达到更好地加解密源码的目的。
现有加密方案
由于 Python 的动态特性和开源特点,导致 Python 代码很难做到很好的加密。社区中的一些声音认为这样的限制是事实,应该通过法律手段而不是加密源码达到商业保护的目的;而还有一些声音则是不论如何都希望能有一种手段来加密。于是乎,人们想出了各种或加密、或混淆的方案,借此来达到保护源码的目的。
常见的源码保护手段有如下几种:
- 发行
.pyc
文件 - 代码混淆
- 使用
py2exe
- 使用
Cython
下面来简单说说这些方案。
发行 .pyc 文件
思路
大家都知道,Python 解释器在执行代码的过程中会首先生成 .pyc
文件,然后解释执行 .pyc
文件中的内容。当然了,Python 解释器也能够直接执行 .pyc
文件。而 .pyc
文件是二进制文件,无法直接看出源码内容。如果发行代码到客户环境时都是 .pyc
而非 .py
文件的话,那岂不是能达到保护 Python 代码的目的?
方法
把 .py
文件编译为 .pyc
文件,是件非常轻松地事情,可不需要把所有代码跑一遍,然后去捞生成的 .pyc
文件。
事实上,Python 标准库中提供了一个名为 compileall 的库,可以轻松地进行编译。
执行如下命令能够将遍历 <src>
目录下的所有 .py
文件,将之编译为 .pyc
文件:
python -m compileall <src>
然后删除 <src>
目录下所有 .py
文件就可以打包发布了:
1 |
$ find <src> -name '*.py' -type f -print -exec rm {} \; |
优点
- 简单方便,提高了一点源码破解门槛
- 平台兼容性好,
.py
能在哪里运行,.pyc
就能在哪里运行
不足
- 解释器兼容性差,
.pyc
只能在特定版本的解释器上运行 - 有现成的反编译工具,破解成本低
python-uncompyle6 就是这样一款反编译工具,效果出众。
执行如下命令,即可将 .pyc
文件反编译为 .py
文件:
1 |
$ uncompyle6 *compiled-python-file-pyc-or-pyo* |
代码混淆
如果代码被混淆到一定程度,连作者看着都费劲的话,是不是也能达到保护源码的目的呢?
思路
既然我们的目的是混淆,就是通过一系列的转换,让代码逐渐不那么让人容易明白,那就可以这样下手:
- 移除注释和文档。没有这些说明,在一些关键逻辑上就没那么容易明白了。
- 改变缩进。完美的缩进看着才舒服,如果缩进忽长忽短,看着也一定闹心。
- 在tokens中间加入一定空格。这就和改变缩进的效果差不多。
- 重命名函数、类、变量。命名直接影响了可读性,乱七八糟的名字可是阅读理解的一大障碍。
- 在空白行插入无效代码。这就是障眼法,用无关代码来打乱阅读节奏。
方法
方法一:使用 oxyry 进行混淆
http://pyob.oxyry.com/ 是一个在线混淆 Python 代码的网站,使用它可以方便地进行混淆。
假定我们有这样一段 Python 代码,涉及到了类、函数、参数等内容:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 |
# coding: utf-8 class A(object): """ Description """ def __init__(self, x, y, default=None): self.z = x + y self.default = default def name(self): return 'No Name' def always(): return True num = 1 a = A(num, 999, 100) a.name() always() |
经过 Oxyry
的混淆,得到如下代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
class A (object ):#line:4 ""#line:7 def __init__ (O0O0O0OO00OO000O0 ,OO0O0OOOO0000O0OO ,OO0OO00O00OO00OOO ,OO000OOO0O000OOO0 =None ):#line:9 O0O0O0OO00OO000O0 .z =OO0O0OOOO0000O0OO +OO0OO00O00OO00OOO #line:10 O0O0O0OO00OO000O0 .default =OO000OOO0O000OOO0 #line:11 def name (O000O0O0O00O0O0OO ):#line:13 return 'No Name'#line:14 def always ():#line:17 return True #line:18 num =1 #line:21 a =A (num ,999 ,100 )#line:22 a .name ()#line:23 always () |
混淆后的代码主要在注释、参数名称和空格上做了些调整,稍微带来了点阅读上的障碍。
方法二:使用 pyobfuscate 库进行混淆
pyobfuscate 算是一个颇具年头的 Python 代码混淆库了,但却是“老当益壮”了。
对上述同样一段 Python 代码,经 pyobfuscate
混淆后效果如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
# coding: utf-8 if 64 - 64: i11iIiiIii if 65 - 65: O0 / iIii1I11I1II1 % OoooooooOO - i1IIi class o0OO00 ( object ) : if 78 - 78: i11i . oOooOoO0Oo0O if 10 - 10: IIiI1I11i11 if 54 - 54: i11iIi1 - oOo0O0Ooo if 2 - 2: o0 * i1 * ii1IiI1i % OOooOOo / I11i / Ii1I def __init__ ( self , x , y , default = None ) : self . z = x + y self . default = default if 48 - 48: iII111i % IiII + I1Ii111 / ooOoO0o * Ii1I def name ( self ) : return 'No Name' if 46 - 46: ooOoO0o * I11i - OoooooooOO if 30 - 30: o0 - O0 % o0 - OoooooooOO * O0 * OoooooooOO def Oo0o ( ) : return True if 60 - 60: i1 + I1Ii111 - I11i / i1IIi if 40 - 40: oOooOoO0Oo0O / O0 % ooOoO0o + O0 * i1IIi I1Ii11I1Ii1i = 1 Ooo = o0OO00 ( I1Ii11I1Ii1i , 999 , 100 ) Ooo . name ( ) Oo0o ( ) # dd678faae9ac167bc83abf78e5cb2f3f0688d3a3 |