20200805 -
引言
最近使用IDA分析了一个去头的ELF样本(datacon比赛),它是一个僵尸网络的样本。本身对自己的逆向能力也不是很强,基本上就是捋清楚了程序的逻辑,对照着mirai的源码,得到了一些理解。不过这中间也遇见了很多问题。
问题
1. 反汇编/编译的源码可信吗
这个问题发生在,我将反编译出来的函数源码直接复制到了C语言的源码中,然后进行了编译,但是始终这个结果就是不对。那么这也就是说,反编译出来的源码的功能并不一定是正确的?虽然运行没有问题,但是却出不来相应的结果。这里很纳闷,等后面结果出来了再说吧。
(我个人觉得,可能大致上语义是争取的,但是如果你将这个源码赋值出去,实际上这部分的变量分配也好,内存也好,很多已经不符合原来的语义了,所以就感觉是不对了的。)
(20200806 增加)
我今天看到的一个例子,通过读取伪代码的语义能够看出来他是对的,但是实际上可能你直接复制这段代码就不一定对;我来具体说明一下这个代码。
在代码开头部分的变量声明中,多出了很多变量,但是他们在堆栈上的内存分布是连续的;然后他的代呢,本意是对这块内存进行赋值,但是他所生成的伪代码并不是使用了某个变量,而是采用了这个变量前面的变量作为指针,然后进行复制。我觉得,这里就说明这个内存的部分还是很重要的。
2. static修饰的函数
static修饰的C语言函数,并不需要call的执行,他在反汇编的源码中,是直接就生成在了调用它的函数代码块中。
3. 反编译结果中使用的宏
当前见到的宏,包括_BYTE、_DWORD等,这部分的内容可以在文章[1]中找到。
4. IDA脚本
在当时搜索相关的内容的时候,发现他们直接提供了IDA脚本来辅助解密,不过我最后是单独写了python脚本来进行解密。我觉得,后续的过程中,也应该学习一些这个自动化的方式。这里记录两个网站,一个介绍IDA脚本编写的[2], 另一个是介绍解密脚本的[3],我直接把脚本放下面了。
sea = ScreenEA()
max_size = 0xFF
for i in range(0x00, max_size):
b = Byte(sea+i)
decoded_byte = (b ^ (0xFEBCEADE >> 8 * (i % 4))) & 0xFF;
PatchByte(sea+i,decoded_byte)
if b == 0x00 or decoded_byte == 0x00:
break
这个密钥就是原版的mirai的密钥。但是,目前我还不清楚这个脚本怎么使用。
5. sys_socket函数的使用
ELF格式的样本在逆向时,很多socket函数在进入后,都使用了同一个中断函数;这里不同的函数是通过传递进去的参数来进行区分的。关于具体的中断号可以参考文章[4]。
参考文章
[1]IDA逆向常用宏定义
[2]IDAPython脚本编写指南(二)
[3]Torii botnet - Not another Mirai variant
[4]分析linux中套接字的实现-------创建