记一次对Ghidra反编译的修复

最新推荐文章于 2024-06-24 09:38:43 发布

万天峰

最新推荐文章于 2024-06-24 09:38:43 发布

阅读量904

点赞数 1

文章标签： web安全安全网络安全

本文链接：https://blog.csdn.net/text2204/article/details/131917588

版权

本文介绍了作者在使用Ghidra进行逆向工程时遇到的反编译问题，特别是针对Rust程序分析时出现的异常。文章详细探讨了反编译原理，包括基础准备、控制流图获取、SSA生成等步骤，并分析了Ghidra的反编译引擎工作流程。作者通过调试和分析，发现问题出在栈变量恢复过程中对`and`指令处理的遗漏。最终，作者添加了一个新规则来处理这种情况，有效修复了问题。文章还讨论了IDA在相同情况下的表现，指出Ghidra仍有待改进，同时分享了作者的修复代码和学习网络安全的建议。

摘要由CSDN通过智能技术生成

前言

Ghidra是NSA在2019年开源的逆向工具，可以说从开源发布开始，就基本成了开源界唯一可以与 IDA
竞争的存在，其它的工具多少总是欠点意思。不过从实际情况来看，虽然
Ghidra一直在积极维护，但是现在的Bug情况跟IDA相比，也还是差点意思。不过，开源的好处，就是可以自己研究自己修复，在我这次参加Defcon资格赛过程中碰到问题的时候，我决定，自力更生，于是有了下面的经历。

##问题

最开始发现问题是在逆Rust的时候，IDA 在逆Rust的时候一向有点问题，这次更是出现了分析出来 500
多个参数的情况，实在让人有点难受。于是我觉得尝试下ghidra ，但是打开发现，虽然没有了 500 多个参数，但是情况也好不了太多，出现了奇妙的情况：

相比之下IDA就没有这种奇怪的东西：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cSGA1AYd-1690267282860)(https://image.3001.net/images/20210620/1624195056_60cf3ff06e3e25f7d0662.png!small)]

我找了半天，当时也没能发现 0x178a97 、0x178aa9
之类的玩意儿是从哪里来的，但是这肯定是个比较严重的问题，因为这基本让反编译没法看了。比赛期间没有办法，只能继续用IDA了。但是赛后这个问题是肯定要处理处理的。

##反编译的原理

反编译基本都可分为这么几步：

基础准备

基础准备：一般就是由反汇编器来完成的几个步骤，包括：

1. 加载镜像：将文件中的代码、数据分析出来，从而知道内存中某个地址对应文件中的什么数据。

2.
代码识别+反汇编+代码提升（lifting）：猜测哪些地方应该是机器代码，然后对机器代码进行解码得到汇编语言，同时还可以将汇编语言进行代码提升，也就是liting，得到中间语言
。之后的分析一般就发生在中间语言上，这样可以避免直接对不同架构的汇编代码进行处理，从而可以方便地支持多架构。

控制流图获取

控制流图获取：这部分开始就是反编译器的工作了（一般来说是）。首先就是需要进行控制流图的获取，控制流图是一种图结构，图上的每一个节点叫做一个基本块
，也就是会连续执行的指令。例如以下的汇编程序：mov eax, 1add ebx, eax ; 假设 ebx 是外部的输入cmp ebx, 0x10jne label1mov ebx, 0x20jmp endlabel1:mov ebx, 0x30end:xor eax, eax这一段程序如果画成控制流图：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XTbb28Qk-1690267282860)(https://image.3001.net/images/20210620/1624195622_60cf4226af0c03c9445f4.png!small)]

每一个基本块一旦进入就一定会执行到结尾。这样做之后，就会让分析更加方便，因为以前我们只能以一句汇编为一个单位进行分析，现在就可以一个基本块为一个单位进行分析了。另外，有了图的结构，也比较清晰的知道一个基本块之后可以走到什么分支了。最后的控制流恢复也和这个步骤息息相关。

SSA 生成

SSA，Static Single
Assignment，中文叫做静态单赋值，是说，每一个变量都只应该被赋值一次（只写入一次）。怎么做到呢？就是将变量进行改名，例如eax被写了两次，那么第一次写入，假设是
mov eax, 1 就可以表示为eax_0 = 1 ，第二次用到的eax，假设是add eax, 1 就会表示为eax_1 = eax_0 + 1
这样，一看到eax_1就知道是第二个，不会是第一个了。

但是如果出现分支，就会有一点问题，例如这样的程序：cmp ebx, 100jne L1mov eax, 1jmp endL1:mov eax, 2end:add ebx, eax

如果重新命名eax_1 = 1jmp endL1:eax_2 = 2end:ebx_1 = ? ; 这里出现了问题，应该是 eax_1 还是 eax_2？

所以在SSA里边，我们会加入一个特殊的语句，叫做phi，有时候也叫做phi-node（phi
节点），他的作用就是将分支导致的多个变量进行合并，例如上面的程序就可以被写作：if ebx_0 != 100 then jmp L1eax_1 = 1jmp endL1:eax_2 = 2end:eax_3 = phi(eax_1, eax_2)ebx_1 = eax_3

SSA的目的是让分析更加高效便捷，因为在分析的时候，你用到的变量都可以很清楚的知道是由哪一条语句进行定义的，而不需要往前挨个去找（因为只有一条语句可以定义，所以就很清楚是哪一条，就不需要全部找一遍才能确认）。

变量恢复

即，将变量进行分析恢复，这也是本次Bug的修复重点。变量分为多种可能，包括栈上的变量、寄存器里的变量等等。栈上的变量目前所使用的方法一般是找到栈指针，查看其在函数内开辟了多少空间（加、减了多大的偏移），然后对于用到这一段空间的认为是可能的变量。

类型恢复

在变量恢复之后，会进行类型恢复，也就是“猜”恢复出来的变量可能是什么类型，如果实在猜不出来，就猜一个大小，这个大小可以根据是怎么使用的来确定。例如：加载一个位于rsp