记一次对Ghidra反编译的修复

本文介绍了作者在使用Ghidra进行逆向工程时遇到的反编译问题,特别是针对Rust程序分析时出现的异常。文章详细探讨了反编译原理,包括基础准备、控制流图获取、SSA生成等步骤,并分析了Ghidra的反编译引擎工作流程。作者通过调试和分析,发现问题出在栈变量恢复过程中对`and`指令处理的遗漏。最终,作者添加了一个新规则来处理这种情况,有效修复了问题。文章还讨论了IDA在相同情况下的表现,指出Ghidra仍有待改进,同时分享了作者的修复代码和学习网络安全的建议。
摘要由CSDN通过智能技术生成

前言

Ghidra是NSA在2019年开源的逆向工具,可以说从开源发布开始,就基本成了开源界唯一可以与 IDA
竞争的存在,其它的工具多少总是欠点意思。不过从实际情况来看,虽然
Ghidra一直在积极维护,但是现在的Bug情况跟IDA相比,也还是差点意思。不过,开源的好处,就是可以自己研究自己修复,在我这次参加Defcon资格赛过程中碰到问题的时候,我决定,自力更生,于是有了下面的经历。

##问题

最开始发现问题是在逆Rust的时候,IDA 在逆Rust的时候一向有点问题,这次更是出现了分析出来 500
多个参数的情况,实在让人有点难受。于是我觉得尝试下ghidra ,但是打开发现,虽然没有了 500 多个参数,但是情况也好不了太多,出现了奇妙的情况:

相比之下IDA就没有这种奇怪的东西:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cSGA1AYd-1690267282860)(https://image.3001.net/images/20210620/1624195056_60cf3ff06e3e25f7d0662.png!small)]

我找了半天,当时也没能发现 0x178a97 、0x178aa9
之类的玩意儿是从哪里来的,但是这肯定是个比较严重的问题,因为这基本让反编译没法看了。比赛期间没有办法,只能继续用IDA了。但是赛后这个问题是肯定要处理处理的。

##反编译的原理

反编译基本都可分为这么几步:

基础准备

基础准备:一般就是由反汇编器 来完成的几个步骤,包括:

1. 加载镜像:将文件中的代码、数据分析出来,从而知道内存中某个地址对应文件中的什么数据。

2.
代码识别+反汇编+代码提升(lifting):猜测哪些地方应该是机器代码,然后对机器代码进行解码得到汇编语言,同时还可以将汇编语言进行代码提升,也就是liting,得到中间语言
。之后的分析一般就发生在中间语言上,这样可以避免直接对不同架构的汇编代码进行处理,从而可以方便地支持多架构。

控制流图获取

控制流图获取:这部分开始就是反编译器的工作了(一般来说是)。首先就是需要进行控制流图的获取,控制流图是一种图结构,图上的每一个节点叫做一个基本块
,也就是会连续执行的指令。例如以下的汇编程序:mov eax, 1add ebx, eax ; 假设 ebx 是外部的输入cmp ebx, 0x10jne label1mov ebx, 0x20jmp endlabel1:mov ebx, 0x30end:xor eax, eax这一段程序如果画成控制流图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XTbb28Qk-1690267282860)(https://image.3001.net/images/20210620/1624195622_60cf4226af0c03c9445f4.png!small)]

每一个基本块一旦进入就一定会执行到结尾。这样做之后,就会让分析更加方便,因为以前我们只能以一句汇编为一个单位进行分析,现在就可以一个基本块为一个单位进行分析了。另外,有了图的结构,也比较清晰的知道一个基本块之后可以走到什么分支了。最后的控制流恢复也和这个步骤息息相关。

SSA 生成

SSA,Static Single
Assignment,中文叫做静态单赋值,是说,每一个变量都只应该被赋值一次(只写入一次)。怎么做到呢?就是将变量进行改名,例如eax被写了两次,那么第一次写入,假设是
mov eax, 1 就可以表示为eax_0 = 1 ,第二次用到的eax,假设是add eax, 1 就会表示为eax_1 = eax_0 + 1
这样,一看到eax_1就知道是第二个,不会是第一个了。

但是如果出现分支,就会有一点问题,例如这样的程序:cmp ebx, 100jne L1mov eax, 1jmp endL1:mov eax, 2end:add ebx, eax

如果重新命名eax_1 = 1jmp endL1:eax_2 = 2end:ebx_1 = ? ; 这里出现了问题,应该是 eax_1 还是 eax_2?

所以在SSA里边,我们会加入一个特殊的语句,叫做phi,有时候也叫做phi-node(phi
节点),他的作用就是将分支导致的多个变量进行合并,例如上面的程序就可以被写作:if ebx_0 != 100 then jmp L1eax_1 = 1jmp endL1:eax_2 = 2end:eax_3 = phi(eax_1, eax_2)ebx_1 = eax_3

SSA的目的是让分析更加高效便捷,因为在分析的时候,你用到的变量都可以很清楚的知道是由哪一条语句进行定义的,而不需要往前挨个去找(因为只有一条语句可以定义,所以就很清楚是哪一条,就不需要全部找一遍才能确认)。

变量恢复

即,将变量进行分析恢复,这也是本次Bug的修复重点。变量分为多种可能,包括栈上的变量、寄存器里的变量等等。栈上的变量目前所使用的方法一般是找到栈指针,查看其在函数内开辟了多少空间(加、减了多大的偏移),然后对于用到这一段空间的认为是可能的变量。

类型恢复

在变量恢复之后,会进行类型恢复,也就是“猜”恢复出来的变量可能是什么类型,如果实在猜不出来,就猜一个大小,这个大小可以根据是怎么使用的来确定。例如:加载一个位于rsp

  • 0x30的 8 个字节,就会认为这个位置所对应的变量的大小是 8
    个字节。至于是指针还是整数还是浮点数,这就需要利用后续对这个变量的其他使用方式来确定了。

控制流恢复

即,将控制流图打上标记,确认控制流图所对应的程序结构,例如在上面控制流图示例中所对应的就应该是 if-else语句。

这一部分一般是通过图匹配算法来实现的,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值