7极限精简版64位_实战 Python3.7+64位 Exe 反编译

本文提供了一份详实的Python3.7+64位Exe反编译教程,包括Pyc、Pyd、Pyo、Pyz等文件类型的介绍,以及使用archive_viewer.py脚本反编译PyInstaller打包的Exe过程。通过对比不同Python版本的.pyc头部结构,成功将.pyc转换为.py。
摘要由CSDN通过智能技术生成

记得有年在上海弘连培训,其中一个逆向题就是关于python的Exe,当时就想着写个文档,后来因为忙就拖延了下来;这里补上,而且是大补上:奉献一个干货,网上没有(我没发现)Python3.7的反编译教程,有的都是python2.7的,两者有一个关键的地方不同(一层窗户纸),花费了一些时间才明白,无私地分享给你,这里是不是应该有掌声。5e0b16a63a9b3af4ba8034dbdeeb6285.png

    一、生成python3.7+64位Exe程序

    在反之前要先编一个。用文本工具写个几行的python代码,如图:

8e6eedf58a65bd3bd5159fe59b3abb68.png

    安装Pyinstaller是一个坑,我忙乎了半天,费了几次劲才成功,真是要看运气。安装成功后,用pyinstaller -F filename打包编译成exe。

    拖进exeinfo查看,果然是64位的;

2d461694e3eb9ccda16e105ff3b87762.png

    运行下,可以运行,说明编译成功。

9e851be051a66f8df707782938d75d2f.png

    在开工前,先准备好相关的知识,为后面的顺利进行打下基础。(后面文字有点长,耐心点)

二、Pyc、Pyd、Pyo、Pyz介绍

    (一)在实际开发中,Python作为解释型语言,在实际的代码分发过程中,有比较多的格式定义:.pyc\.pyd\.pyo\.pyz。

    ①.pyc文件是什么? python编译后的二进制文件

    Python源码编译的结果就是PyCodeObject(简称“代码对象”),每个作用域会编译出一个对应的代码对象,其中名为co_code的PyStringObject保存着代码对象的字节码。     

    一个Python源文件就是一个模块。每个模块顶层的代码对象通过marshal序列化之后就得到了.pyc文件。marshal以little-endian字节序来序列化数据。     

    那嵌套于顶层作用域里面的那些作用域,例如函数、类的定义,它们对应的代码对象在哪里?它们每一个都乖乖的躺在上一层作用域的代码对象的co_const(常量池)域里,所以其实顶层代码对象已经嵌套包含了底下其它作用域的代码对象。  

    PyCodeObject的结构和marshal的序列化逻辑和我们反编译这块没有太大的关系,不介绍了,否则又是洋洋洒洒一大篇。 

    当导入一个模块时,类型为.pyc的文件将由解释器自动生成,这将加速该模块未来的导入。因此,这些文件仅在由另一个.py文件或模块导入时从.py文件创建。

    注意,使用.pyc文件只会加快程序的加载速度,而不会加快程序的实际执行速度。这意味着您可以通过在一个模块中编写主程序来提高启动时间,这个模块由另一个更小的模块导入。

    pyc主要写入三个内容:

    1).Magic num

    2).Pyc创建时间

    3).PyCodeObject.(python/marshal.c)

    于是pyc magic num的作用有三: 

    一是拒绝完全不可能是正常的.pyc的文件,例如普通文本,图片、音乐,或者别的二进制格式。检查文件的头4个字节已经能有效的筛掉许多无效文件;

    二是拒绝不慎被文本编辑器编辑而破损的文件;     

    三是拒绝不对应的Python解释器生成的.pyc文件。

    由于不同Python版本的marshal算法可能不同,虚拟机采用的字节码指令集也可能不同,所以保守起见不同版本的Python解释器生成的.pyc文件被认为是不兼容的。 

    Python在不同的版本,pyc的头部长度和内容是不同的:

40893d4254bd65da27e7709937e69f44.png

     PEP 3147中指出:.pyc文件包含两个2字节Header(表示一个Magic Num和Timestamp),后面跟序列化的PyCodeObject。每当Python改变字节码格式时,Magic Num会改变。Timestamp用于确保pyc文件与用于创建它的py文件匹配。当Magic Num或Timestamp不匹配时,将重新编译py文件并写入新的pyc文件。

4e0fdee3535578e6e232bb5e23c8d612.png

    PEP 552中指出:.pyc头文件目前由4个字节组成。第一个字节仍是magic number,对字节码和pyc格式进行版本控制。第二个字节为新增加的字段,将是一个位字段(bit field),对报头其余部分的解释和pyc的失效行为取决于位字段的内容。如果位字段(bit field)为0,则pyc是传统的基于时间戳的pyc;第三个和第四个字节分别是时间戳和文件大小,通过比较源文件的元数据和头文件中的元数据来进行无效判断。

    如果位字段的最低位被设置,则pyc是基于哈希的pyc。我们将第二个最低位称为check_source标志,位字段之后是源文件的64位散列,我们将使用带有源文件内容硬编码密钥;另一个类似MD5或BLAKE2的快速散列也可以,我们选择SipHash是因为Python已经从PEP 456中获得了它的内置实现,尽管允许选择SipHash键的接口必须公开给Python。

    以下是一些常见的Magic num:

66a02f5675c377fd171539437250474f.png

     ②.pyo文件:文件类型也是由解释器在导入模块时创建的。但是,.pyo文件是在启用优化设置时运行解释器的结果。

    当我们调用Python解释器时,通过添加“-O”标志来启用优化器。

    ③.pyd文件:文件类型是特定于Windows操作系统类平台的。因此,在个人版和企业版的Windows 10、Windows 7和其他版本中可能经常遇到这种情况。

    在Windows生态系统中,.pyd文件是一个包含Python代码的库文件,可以被其他Python应用程序调用和使用。为了使这个库对其他Python程序可用,它被打包为一个动态链接库。

    .pyd文件是一个动态链接库,它包含一个Python模块,或一组模块,由其他Python代码调用。要创建.pyd文件,需要创建一个名为example.pyd的模块。在这个模块中,需要创建一个名为PyInit_example()的函数。当程序调用这个库时,它们需要调用import foo, PyInit_example()函数将运行。

    ④.pyz文件: executable python zip archives具体内容参见下面的ZlibArchive

    (二)Python打包文件

    打包文件是包含其他文件的文件,例如.tar文件、.jar文件或.zip文件。PyInstaller中使用了两种存档。一个是ZlibArchive,它允许高效地存储Python模块,并通过一些导入钩子直接导入。另一个是CArchive,类似于.zip文件,这是一种打包(或压缩)任意数据块的通用方法。它的名字来源于这样一个事实,即它可以很容易地从C和Python中操作。这两个类都来自一个公共基类,这使得创建新类型的归档变得相当容易。

    ①ZlibArchive:包含压缩的.pyc或.pyo文件。spec文件中的PYZ类调用创建了一个ZlibArchiveZlibArchive中的目录是一个Python字典,它的Key(import语句中给定的成员名)与ZlibArchive中的查找位置和长度相关联。ZlibArchive的所有部分都以编组格式存储,因此与平台无关。

    ZlibArchive在运行时用于导入绑定的python模块。即使使用最大压缩,这也比正常导入快。而不是搜索系统。路径,在字典里有一个查找。没有目录操作,也没有要打开的文件(该文件已经打开)。只有一次搜索,一次读取和一次解压。

    Python错误跟踪将指向创建归档条目的源文件(.pyc编译、捕获并保存到归档时的_file__属性)。这不会告诉您的用户任何有用的东西,但是如果他们向您发送Python错误跟踪,您可以理解它。

    ②CArchive:可以包含任何类型的文件。它很像一个.zip文件。它们很容易用Python创建,也很容易从C代码中解包。CArchive可以附加到另一个文件,比如ELF和COFF可执行文件。为了实现这一点,存档是在文件的末尾用它的目录创建的,后面只跟一个cookie,它告诉目录从哪里开始以及存档本身从哪里开始。

    CArchive可以嵌入到另一个CArchive中。内部存档可以在适当的地方打开和使用,而不必提取它。

    每个目录条目都有可变的长度。条目中的第一个字段给出了条目的长度。最后一个字段是相应打包文件的名称。名称以空结尾。压缩对于每个成员都是可选的。

    还有一个与每个成员相关联的类型代码。类型代码由自提取的可执行程序使用。如果使用CArchive作为.zip文件,则不必担心代码。

    ELF可执行格式允许将任意数据连接到可执行文件的末尾,而不影响其功能。因此,CArchive的目录在归档的最后。可执行文件可以以二进制文件的形式打开自己,查找到最后并“打开”CArchive。

    三、反编译Exe过程

    因为是64位程序,用x64dbg载入查看,如图:

727e695222e5f287e2c8dfa9debffeee.png

    发现PyInstaller等关键信息,可以确认是利用PyInstaller打包的python文件,所以我们要想办法把python文件dump出来。

    从网上搜索下,发现有工具可以直接将pyinstaller打包的Exe直接反编译出来,拿来主义,直接用......,为了大家不走弯路,我直接给出正确途径,如果按照网上的教程,你要摸索半天。

    我没用网上介绍的Pyinstxtractor.py,够麻烦;我用的是用来提取的py脚本叫archive_viewer.py,将这个脚本文件和Exe放置在同一个目录下,

    python archive_viewer.py wei.exe

    出现如下图:

a6be3942e003fa4fd722fd5c913ebff4.png

    在这图里,最重要的就是上面用红线标上的两个部分,现在我们将它们dump出来,如下图:

2ee0f80e76dda414b8878351322845a5.png

    用x 命令将两个结构体导出,

494147275d2e9c8a840b2b7e196d629f.png

会形成这两个文件,struct这个位置在0,所以是头部;

    我们现在是将struct的头部嫁接到wei.pyc的头部,这里涉及到了pyc的头部格式问题,我花了不少时间,因为我是实战嫁接成功后才去找的原因(理论作支撑);对一个没接触过的东西摸索入门确实要花费很多时间,而且过程非常难以忍受,难怪路遥在写完《平凡的世界》后第一件就是推开窗将手中的笔狠狠地扔了出去,我也有同感。

    我们来看下导出的struct和pyc文件,当我打开pyc文件时,010editor提示要安装pyc.bt这个识别脚本,如图:

200aa2e694ba035b9c64b2d74837f848.png

    肯定是选择安装,我信任它;可就是这个脚本害苦了我,按这个脚本的格式头我怎么理解都相矛盾,且怎么嫁接都不成功,后来才发现这个脚本只能支持到python2.7,对后续的版本不支持,更别提3.7了,这也造成了我困惑很久。

5804864a3a50881518052a3a1f0c269e.png

    对比两个文件头部,我们只要将struct的格式头插入到wei.pyc的头部,从上面的pyc的格式头我们得知要插入16个字节的,当初没找到文件头的文档,导致走了不少弯路;插入完成后,如图:

e64c8c4dcfe0e68e3921d09d10e2ebf7.png

    现在成为了一个完整的pyc格式的文件了,下面我们要做的就是将pyc转换成py格式的,网上有很多的说明,这里我强调一下,不要用那个EasyPythonDecopiler,这个工具的效果并不好,其实有个网页提供了pyc在线反编译转换功能,挺好,

3f49b1983cd7733c6d5c6e96a9222a31.png

    到这里,反编译过程结束了,有机会我来讲解下用IDA逆向python的exe文件,届时奉献给大家。

    这段时间连轴转,也蛮辛苦的;想想疫情前线的医护人员,每时每刻都在同生死作搏斗,我就觉得我要努力抓紧时间多做些力所能及的事情,才够资格向她们看齐。码字虽累,但边码字边陪着孩子,倒也其乐融融;如果您觉得作者辛苦了,请看后点个赞,鼓励下!598612e33e47c94fd18c56dd887a933c.png

    另,有些人给我留言,希望能用上我写的那些个工具软件,我说可以,但有两个条件:一是我要认识你嘛,好歹你要找个熟悉人介绍吧;二是你必须是网安的,在(一)的基础上找我吧。

a5dff5860086e92147b8a0a61a1e5c95.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值