反编译"木兰编译器"并分析源码

这篇博客详述了如何反编译和分析“木兰编译器”的源码,从PyInstaller打包的exe中提取内容,修补pyc文件,再到使用工具反编译。文章深入探讨了项目的结构,特别是ulang.parser模块,包括词法分析、核心解析器的实现,并指出某些部分可能是其他项目的副本。此外,还分析了代码生成模块和运行时模块,最后总结认为木兰编译器是一个有一定技术含量的“大型小项目”,但由于舆论和过度宣传导致了争议。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

涉及到的代码见: https://github.com/loopyme/ulan-uncompile

大家都在说木兰编译器是在水项目,但我感觉很多人啥也不知道跟着黑,你随机抽样几个网友出来很有可能都解释不清楚Parser和lexer.所以我找到时间,拆开木兰编译器看看源码,是好是坏拆开看.

(写在前面)结果是:我觉得:木兰编译器给python换了个前端,但至少不是我原来想的加了层贴纸(靠eval实现那种),所以算是一个挺有趣的小项目,只是因为'国产编译器'名头太大了,再加上舆论,所以翻了车.但是要是我写出来这样一个项目(并且没有往项目里添加那些凑字数的文件的话),我是会很自豪的,至少它比我脱裤子放屁的pymips高到不知道哪里去了.

形象的说木兰编译器就是:有一群人找到个轮子,仔细读了读外胎的说明书,造了个外胎给轮子换上.内行觉得这外胎换了没啥意义,可能还没原来轮子好用,很多外行跟着起哄,以为木兰只是在原来的轮胎上贴了一层膜.

1. 反编译

易知,木兰编译器是用PyInstaller打包起来的python项目,于是反编译这个exe的思路就很清晰了

1.1 提取exe内容

pyinstxtractor很容易就能提取PyInstaller生成的Windows可执行文件内容

python ./tools/pyinstxtractor.py ./ulang-0.2.2.exe

1.2 修补pyc文件

PyInstaller会把pyc文件的magic和时间戳吃掉,所以需要从struct文件里取前8个字节补回pyc文件前面.

# ./tools/add_header.py
import os


with open("./ulang-0.2.2.exe_extracted/struct", "rb") as f:
    header = f.read()[:4]

for filename in os.listdir("./ulang-0.2.2.exe_extracted/PYZ-00.pyz_extracted"):
    if 'ulang' not in filename:
        continue
    
    with open("./ulang-0.2.2.exe_extracted/PYZ-00.pyz_extracted/" + filename, "rb") as f:
        data = f.read()

    with open("./pyc/" + filename, "wb") as f:
        f.write(header + data)
mkdir ./pyc/
python ./tools/add_header.py

1.3 反编译pyc文件

uncompyle6可以直接把pyc文件反编译了,至于下面的sh,我先ls一下,然后用熟练的列操作在vs code里粘出整齐的指令.

mkdir ./ulang/
mkdir ./ulang/codegen/
mkdir ./ulang/parser/
mkdir ./ulang/runtime/

pip install uncompyle6

uncompyle6 ./pyc/ulang.codegen.blockly.pyc        > ./ulang/codegen/blockly.py
uncompyle6 ./pyc/ulang.codegen.pyc                > ./ulang/codegen/__init__.py
uncompyle6 ./pyc/ulang.codegen.python.pyc         > ./ulang/codegen/python.py
uncompyle6 ./pyc/ulang.codegen.ulgen.pyc          > ./ulang/codegen/ulgen.py
uncompyle6 ./pyc/ulang.parser.core.pyc            > ./ulang/parser/core.py
uncompyle6 ./pyc/ulang.parser.error.pyc           > ./ulang/parser/error.py
uncompyle6 ./pyc/ulang.parser.lexer.pyc           > ./ulang/parser/lexer.py
uncompyle6 ./pyc/ulang.parser.lrparser.pyc        > ./ulang/parser/lrparser.py
uncompyle6 ./pyc/ulang.parser.parsergenerator.pyc > ./ulang/parser/parsergenerator.py
uncompyle6 ./pyc/ulang.parser.pyc                 > ./ulang/parser/__init__.py
uncompyle6 ./pyc/ulang.pyc                        > ./ulang/__init__.py
uncompyle6 ./pyc/ulang.runtime.env.pyc            > ./ulang/runtime/env.py
uncompyle6 ./pyc/ulang.runtime.main.pyc           > ./ulang/runtime/main.py
uncompyle6 ./pyc/ulang.runtime.pyc                > ./ulang/runtime/__init__.py
uncompyle6 ./pyc/ulang.runtime.repl.pyc           > ./ulang/runtime/repl.py

然后再手动调整一下就大功告成了!

这样反编译出来代码实际是跑不起来的,debug发现是有些地方出了小问题,这并不影响我阅读源码的大致思路.

2. 源码分析

2.1 项目结构

.
├── __init__.py
├── main.py
├── CodeGen
│   ├── __init__.py
│   ├── blockly.py
│   ├── python.py*
│   └── ulgen.py
├── parser
│   ├── __init__.py
│   ├── core.py
│   ├── error.py
│   ├── lexer.py
│   ├── lrparser.py*
│   ├── parsergenerator.py*
└── runtime
    ├── __init__.py
    ├── env.py
    ├── main.py
    └── repl.py

*:是某个公开库的源文件副本

这个项目主要外部依赖于ast,rply,codegen.

2.2 ulang.parser

ulang.parser.core.Parser注释: A simple LR(1) parser to parse the source code of mu and yield the python ast for later using…(
一个简单的LR(1)解析器,用于解析mu的源代码并生成python ast供后续使用。)

我查了查资料,猜测作者应该熟读了rply的文档,基于文档指导实现了Parser和Lexer,以下为具体分析:

2.2.1 ulang.parser.lexer

ulang.parser.lexer选段:

lg.add('IDENTIFIER', '\\$?[_a-zA-Z][_a-zA-Z0-9]*')
lg.add('DOTDOTDOT', '\\.\\.\\.')
lg.add('DOTDOTLT', '\\.\\.<')
lg.add('DOTDOT', '\\.\\.')
lg.add('DOT', '\\.')
lg.add('DOLLAR', '\\$')
lg.add('[', '\\['
爬虫Python学习是指学习如何使用Python编程语言来进行网络爬取和数据提取的过程。Python是一种简单易学且功能强大的编程语言,因此被广泛用于爬虫开发。爬虫是指通过编写程序自动抓取网页上的信息,可以用于数据采集、数据分析、网站监测等多个领域。 对于想要学习爬虫的新手来说,Python是一个很好的入门语言。Python的语法简洁易懂,而且有丰富的第三方库和工具,如BeautifulSoup、Scrapy等,可以帮助开发者更轻松地进行网页解析和数据提取。此外,Python还有很多优秀的教程和学习资源可供选择,可以帮助新手快速入门并掌握爬虫技能。 如果你对Python编程有一定的基础,那么学习爬虫并不难。你可以通过观看教学视频、阅读教程、参与在线课程等方式来学习。网络上有很多免费和付费的学习资源可供选择,你可以根据自己的需求和学习风格选择适合自己的学习材料。 总之,学习爬虫Python需要一定的编程基础,但并不难。通过选择合适的学习资源和不断实践,你可以逐步掌握爬虫的技能,并在实际项目中应用它们。 #### 引用[.reference_title] - *1* *3* [如何自学Python爬虫? 零基础入门教程](https://blog.csdn.net/zihong523/article/details/122001612)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [新手小白必看 Python爬虫学习路线全面指导](https://blog.csdn.net/weixin_67991858/article/details/128370135)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值