抖音老版本X-Medusa粗略分析

专搞大平台的程序员

于 2025-02-22 22:13:22 发布

阅读量1.2k

点赞数 31

分类专栏：抖音协议文章标签： java 算法前端

本文链接：https://blog.csdn.net/2503_90751938/article/details/145801881

版权

抖音协议专栏收录该内容

9 篇文章

订阅专栏

X-Mdeusa 参数分析

抖音25.0.0六神参数X-Medusa算法还原。首先使用unidbg完成对六神参数的模拟，后面的分析全部基于unidbg模拟执行。

详细分析过程

通过unidbg生成一份指令trace日志，所有分析都是为了还原日志中的结果。下面是需要还原的结果：

z7umZ/vXMwv4yfz8KW+7AgUD30Fyg/hdkGDmOvdJAfclrEAFiV+HFZIusnoMRcL8Z2tAqqheflnmgn52Voe8r3n7sCdF/Lb91FGLuei3wPeId2x9cosbAUOEEH285TnGqDZ9LbYK+1GlHr0v0uSlh4N2bSLFvK2ZOrizOGQngjUhr76h/0sBDFytAsgOvHWhs2umwyBgbE/HavK9dhdzqDmL6lQI4mPvSlYGEkDWIROp6MCPKOCgT/jpMaeMDOXaKLC2FR1OzfYJCzw6LG5MZPjpLq1KozOBkSbNASFUKa330+zrrigt95EeI7IVqB0c2GB33crIoOV2uZDeOTek7EWtZvdRh5LvZjwb9rwCyYM3SnJrT5NqJMQv3fzaCkZTH/gmnSWAoISUW/N3CHhD/QWNm6AshwT/Hvw/AUY+UFlIk8iz9Uk=

从最后的结果可以看出是一个base64字符串，利用ida插件获取到base64相关函数，然后使用unidbg断点hook base64输入数据和base64结果来判定是否是标准的base64算法。

// base64 分析

// base64 入参分析

debugger.addBreakPoint(module.base + 0xbfbf4, new BreakPointCallback() {

int count = 0;

@Override

public boolean onHit(Emulator<?> emulator, long address) {

System.out.println("call base64 bfbf4 count = " + ++count);

Backend backend = emulator.getBackend();

long msgAddr = backend.reg_read(Arm64Const.UC_ARM64_REG_X3).longValue();

long msgLen = backend.reg_read(Arm64Const.UC_ARM64_REG_X4).longValue();

byte[] message = backend.mem_read(msgAddr, msgLen);

System.out.println("addr 0x" + Long.toHexString(msgAddr) + ", length " + msgLen + "\n" + bytesToHexString(message));

return true;

}

});

// base64 结果？

debugger.addBreakPoint(module.base + 0xbfd44, new BreakPointCallback() {

int count = 0;

@Override

public boolean onHit(Emulator<?> emulator, long address) {

System.out.println("call base64 bfd44 count = " + ++count);

Backend backend = emulator.getBackend();

long resAddr = backend.reg_read(Arm64Const.UC_ARM64_REG_X0).longValue();

long resLen = backend.reg_read(Arm64Const.UC_ARM64_REG_X1).longValue();

byte[] result = backend.mem_read(resAddr, resLen);

System.out.println(new String(result));

return true;

}

});

图片描述

利用上面hook结果验证base64是标准的，并且得到了base64之前medusa结果存储的内存地址，方便后面traceWrite分析。将medusa解base64的到如下字节：

cf bb a6 67 fb d7 33 0b f8 c9 fc fc 29 6f bb 02 05 03 df 41 72 83 f8 5d 90 60 e6 3a f7 49 01 f7 25 ac 40 05 89 5f 87 15 92 2e b2 7a 0c 45 c2 fc 67 6b 40 aa a8 5e 7e 59 e6 82 7e 76 56 87 bc af 79 fb b0 27 45 fc b6 fd d4 51 8b b9 e8 b7 c0 f7 88 77 6c 7d 72 8b 1b 01 43 84 10 7d bc e5 39 c6 a8 36 7d 2d b6 0a fb 51 a5 1e bd 2f d2 e4 a5 87 83 76 6d 22 c5 bc ad 99 3a b8 b3 38 64 27 82 35 21 af be a1 ff 4b 01 0c 5c ad 02 c8 0e bc 75 a1 b3 6b a6 c3 20 60 6c 4f c7 6a f2 bd 76 17 73 a8 39 8b ea 54 08 e2 63 ef 4a 56 06 12 40 d6 21 13 a9 e8 c0 8f 28 e0 a0 4f f8 e9 31 a7 8c 0c e5 da 28 b0 b6 15 1d 4e cd f6 09 0b 3c 3a 2c 6e 4c 64 f8 e9 2e ad 4a a3 33 81 91 26 cd 01 21 54 29 ad f7 d3 ec eb ae 28 2d f7 91 1e 23 b2 15 a8 1d 1c d8 60 77 dd ca c8 a0 e5 76 b9 90 de 39 37 a4 ec 45 ad 66 f7 51 87 92 ef 66 3c 1b f6 bc 02 c9 83 37 4a 72 6b 4f 93 6a 24 c4 2f dd fc da 0a 46 53 1f f8 26 9d 25 80 a0 84 94 5b f3 77 08 78 43 fd 05 8d 9b a0 2c 87 04 ff 1e fc 3f 01 46 3e 50 59 48 93 c8 b3 f5 49

接下来则需要分析上面字节的来源，通过之前的线索直接traceWrite内存区域得到如下结果：

图片描述

从上图中可以看出trace内存指示的位置和LR都不是直接写内存的地方，之前没遇到过这种情况，不知道这里是unidbg的缺陷还是app的什么策略，不过问题不大，既然trace不到具体的写内存过程，那就写hook函数时刻判断内存找到内存变化的瞬间，然后利用unidbg单步调试，数据绝对不会凭空出现在内存里。

emulator.getBackend().hook_add_new(new CodeHook() {

@Override

public void hook(Backend backend, long address, int size, Object user) {

long memAddr = 0x4069a000L;

byte[] buf = backend.mem_read(memAddr, 8);

String hexStr = bytesToHexString(buf);

System.out.println("[0x" + Long.toHexString(address) + "] " + hexStr);

if (buf[0] != 0) {

System.exit(0);

}

@Override

public void onAttach(UnHook unHook) {

}

@Override

public void detach() {

}

}, module.base, module.base + module.size, null);

图片描述

trace之后确认不是unidbg的问题，traceWrite结果是准确的，并且从上面的trace结果可以可以看出从pc地址有个变化，接着内存数据就发生了变化，在trace 日志中也能找到证明，接下来则是想办法让unidbg在这里断下

图片描述

很简单保持前面的代码不动，计数调用次数断下即可：

// base64 输入数据内存变化定位

debugger.addBreakPoint(module.base + 0x0d19d8, new BreakPointCallback() {

int count = 0;

@Override

public boolean onHit(Emulator<?> emulator, long address) {

System.out.println("call 0x0d19d8 count " + ++count);

if (count == 159) {

return false;

}

return true;

}

});

断下之后开始单步调试

从上图中可以看出先拷贝进去了20字节并且来源的地址也都知道了，其实将之前的trace长度更改到全长326 或者是大于22字节也同样能看出medusa base64输入参数的分布。medusa base64输入是三部分拷贝进来的，第一部分是20字节，第二部分是2字节，第三部分则是剩下的所有。 具体分析方式也是重复上面的步骤而已。

cf bb a6 67 fb d7 33 0b f8 c9 fc fc 29 6f bb 02 05 03 df 41

72 83

f8 5d 90 60 e6 3a f7 49 01 f7 25 ac 40 05 89 5f 87 15 92 2e b2 7a 0c 45 c2 fc 67 6b 40 aa a8 5e 7e 59 e6 82 7e 76 56 87 bc af 79 fb b0 27 45 fc b6 fd d4 51 8b b9 e8 b7 c0 f7 88 77 6c 7d 72 8b 1b 01 43 84 10 7d bc e5 39 c6 a8 36 7d 2d b6 0a fb 51 a5 1e bd 2f d2 e4 a5 87 83 76 6d 22 c5 bc ad 99 3a b8 b3 38 64 27 82 35 21 af be a1 ff 4b 01 0c 5c ad 02 c8 0e bc 75 a1 b3 6b a6 c3 20 60 6c 4f c7 6a f2 bd 76 17 73 a8 39 8b ea 54 08 e2 63 ef 4a 56 06 12 40 d6 21 13 a9 e8 c0 8f 28 e0 a0 4f f8 e9 31 a7 8c 0c e5 da 28 b0 b6 15 1d 4e cd f6 09 0b 3c 3a 2c 6e 4c 64 f8 e9 2e ad 4a a3 33 81 91 26 cd 01 21 54 29 ad f7 d3 ec eb ae 28 2d f7 91 1e 23 b2 15 a8 1d 1c d8 60 77 dd ca c8 a0 e5 76 b9 90 de 39 37 a4 ec 45 ad 66 f7 51 87 92 ef 66 3c 1b f6 bc 02 c9 83 37 4a 72 6b 4f 93 6a 24 c4 2f dd fc da 0a 46 53 1f f8 26 9d 25 80 a0 84 94 5b f3 77 08 78 43 fd 05 8d 9b a0 2c 87 04 ff 1e fc 3f 01 46 3e 50 59 48 93 c8 b3 f5 49

将上面的部分按照前面分析完成分割，接下来先追主体数据来源，将之前的trace中内存首字节变化程序退出的语句注释掉，并将前面count == 159 的条件更改为count >= 159 那么接下来的第三个X1对应的地址就是主体部分的来源0x40695280。接下来开始分析此处内存数据的来源, 还是traceWrite得到如下结果：

对应的是libc中的函数，通过LR地址发现是memcpy系统调用，这里直接偷懒到日志文件中搜索，如果有足够耐心前面也可以不调试，单个字节在trace日志里搜索。这里直接搜索对应内存地址：

从上面可以看出只有127个结果，倒着看在上图位置发现首字节，搜索那句pc值：

查看这句附近的汇编指令能发现下面规律：

第三部分的数据是通过异或得到的：

将搜索结果拿出来部分进行分析

0x84 ^ 0x7c = 0xf8

0xe7 ^ 0xba = 0x5d

0x5 ^ 0x95 = 0x90

0xc7 ^ 0xa7 = 0x60

0x95 ^ 0x73 = 0xe6

0x58 ^ 0x62 = 0x3a

0x26 ^ 0xd1 = 0xf7

0xa3 ^ 0xea = 0x49

0x16 ^ 0x17 = 0x1

0xc6 ^ 0x31 = 0xf7

0x4c ^ 0x69 = 0x25

0x11 ^ 0xbd = 0xac

0x69 ^ 0x29 = 0x40

0x53 ^ 0x56 = 0x5

0xe5 ^ 0x6c = 0x89

0xce ^ 0x91 = 0x5f

0x84 ^ 0x3 = 0x87

0xe7 ^ 0xf2 = 0x15

0x5 ^ 0x97 = 0x92

0xc7 ^ 0xe9 = 0x2e

0x95 ^ 0x27 = 0xb2

0x58 ^ 0x22 = 0x7a

0x26 ^ 0x2a = 0xc

0xa3 ^ 0xe6 = 0x45

0x16 ^ 0xd4 = 0xc2

0xc6 ^ 0x3a = 0xfc

0x4c ^ 0x2b = 0x67

0x11 ^ 0x7a = 0x6b

0x69 ^ 0x29 = 0x40

0x53 ^ 0xf9 = 0xaa

0xe5 ^ 0x4d = 0xa8

0xce ^ 0x90 = 0x5e

0x84 ^ 0xfa = 0x7e

0xe7 ^ 0xbe = 0x59

0x5 ^ 0xe3 = 0xe6

0xc7 ^ 0x45 = 0x82

0x95 ^ 0xeb = 0x7e

0x58 ^ 0x2e = 0x76

0x26 ^ 0x70 = 0x56

0xa3 ^ 0x24 = 0x87

0x16 ^ 0xaa = 0xbc

0xc6 ^ 0x69 = 0xaf

0x4c ^ 0x35 = 0x79

0x11 ^ 0xea = 0xfb

0x69 ^ 0xd9 = 0xb0

0x53 ^ 0x74 = 0x27

0xe5 ^ 0xa0 = 0x45

0xce ^ 0x32 = 0xfc

从上面可以看出呈现出一定的规律，都是同一个16字节数组异或后得到最后结果，先分析每组变化的字节来源。直接在附近搜索0x7c:

在临近位置发现上图所示的计算过程，继续向下翻能发现会出现和上图所示差不多的模式，都是每四个字节一组的计算，这里可能是有个循环或是是什么规律，根据之前traceWrite第三部分地址得到的数据往前一层开始大致确定带有上面模式的开始，然后拿出来单独分析。

大致就是从上面截图这部分开始，取16字节顺着日志分析数据变化，总结出下面的变化

4c 9d 94 f4 66 ec 1c 26 d5 b2 52 46 bd bb d4 30

接着与0xbffbb40 开始的数据异或，前16字节

ea 2b 04 5b 11 bf 23 64 83 9e 6a b2 7f 95 a9 df

异或之后得到

a6 b6 90 af 77 53 3f 42 56 2c 38 f4 c2 2e 7d ef

这部分变化也能从第三部分的内存变化中看出来

a6 b6 90 af 77 53 3f 42 56 2c 38 f4 c2 2e 7d ef

将上面异或结果转成 4 * 4 的矩阵

a6 b6 90 af

77 53 3f 42

56 2c 38 f4

c2 2e 7d ef

按照上面的列查表 0xdfed0

38 5f fb 9e a0 e4 c0 44 50 b3 64 e7 75 b7 89 7b

38 5f fb 9e

a0 e4 c0 44

50 b3 64 e7

75 b7 89 7b

按照上图所示的变化重新排序数据

00 b3 89 44 00 b7 fb e7 00 5f c0 7b 00 e4 64 9e

38 b3 89 44 a0 b7 fb e7 50 5f c0 7b 75 e4 64 9e

38 b3 89 44

a0 b7 fb e7

50 5f c0 7b

75 e4 64 9e

明显看着就是行变化，已经看着非常像是aes算法了

通过上面的日志分析，这部分已经看着非常像是的aes了，但是字节代换部分表是固定的，更可能是个aes算法的变种魔改。如果是aes的魔改那么行变换之后就是列混淆部分了。下面部分日志通过脚本筛选出读取内存和一些数学运算：

上面只是部分被筛选出来的日志，选择其中一部分进行分析：

接着上面行变换之后的矩阵

38 b3 89 44

a0 b7 fb e7

50 5f c0 7b

75 e4 64 9e

将日志中出现的计算总结如下

第1列第1字节计算总结

0x38 << 1 = 0x70

0x70 ^ 0 = 0x70

第1列第2字节计算总结

0xa0 ^ 0 = 0xa0

0xa0 << 1 = 0x140 & 0xff = 0x40

0x40 ^ 0x1b = 0x5b

0x5b ^ 0xa0 = 0xfb

第1列第3字节计算总结

0x50 ^ 0x0 = 0x50

0x50 << 1 = 0xa0

第1列第4字节计算总结

0x75 ^ 0x0 = 0x75

0x75 << 1 = 0xea

总计算

0x70 ^ 0xfb = 0x8b

0x50 ^ 0x8b = 0xdb

0xdb ^ 0x75 = 0xae

将上面的计算可以汇总成一句计算

lsl_one_bit(col[0] ^ 0x0) ^ lsl_one_bit(col[1] ^ 0x0) ^ col[1] ^ col[2] ^ col[3]

这个计算逻辑出来之后就非常熟悉了

根据上面的计算分析，多分析几组日志中的数据就更能确定是aes中列混淆的计算了。直接上网或者是利用大模型搞个列混淆代码，连着之前的逻辑一起写个python代码测试：

message = bytes.fromhex("4c9d94f466ec1c26d5b25246bdbbd430")

fixed_bytes_1 = bytes.fromhex("ea2b045b11bf2364839e6ab27f95a9df84e705c7955826a316c64c116953e5ce62028a3df75aac9ee19ce08f88cf0541")

# 这里应该是异或初始向量

state = bytes([a ^ b for a, b in zip(message, cycle(fixed_bytes_1))])

print("异或初始化向量: " + state.hex())

# 这个是计算后需要查的表，直接从ida中复制出来的

# 这部分应该是对应着查表，字节代换的过程

dfed0_table = [

0x2E, 0x5C, 0x55, 0xED, 0x1B, 0xDA, 0xA, 0x79, 0x28,

0x69, 0x57, 0xFE, 0x68, 0x3A, 0xDE, 0xAC, 0x90, 0xF9,

0xC1, 0xE1, 0xC3, 0x8B, 0x7F, 0x59, 0x26, 0xCA, 0x13,

0xBB, 0x11, 0x37, 0x39, 0x21, 0xEB, 0x9A, 0xFF, 0x5E,

0x42, 0x33, 0xBE, 0x51, 0x8D, 0x40, 0x1E, 0x91, 0xB3,

0x85, 0xB7, 0xCD, 0xDC, 0x27, 0x92, 0x83, 0x87, 0x3F,

0xE6, 0x4A, 0x64, 0x56, 0x8C, 0xA1, 0x76, 0xD2, 0xFD,

0xC0, 0x63, 0x18, 0x44, 0x1A, 0x9F, 0x61, 0xCB, 0x6E,

0x67, 0x29, 0xAF, 0xB8, 0x54, 0x60, 0xDB, 0x97, 0xE8,

0xA3, 0xC9, 0xE4, 0, 0xEC, 0x50, 0x17, 0xBD, 0x2A,

0xB6, 0x8E, 0x3B, 0x46, 0x65, 0xA6, 0x7A, 0x96, 0xD3,

0x72, 0x12, 0xBC, 0x20, 0x4D, 0x7C, 0xFA, 0x15, 0xC,

0x41, 0x9B, 0xAA, 9, 0xF8, 0xF0, 0x5D, 0x84, 0xFC,

0xE, 0xD6, 0xA0, 0xF2, 0xEF, 0x4E, 0x10, 0xBF, 0x89,

0x6D, 0x9C, 0x98, 6, 0xC2, 0xC7, 0x5A, 0xF1, 0xB1,

0xA5, 0xF4, 0xB9, 0xA2, 0xF5, 0x78, 0xAE, 0x3D, 0x24,

0xFB, 0x30, 0x9D, 0xD8, 0xA4, 0x6F, 0x1F, 0x49, 0xD0,

0x95, 0x3C, 0x99, 0xBA, 0x23, 0xEA, 0x53, 0x14, 0x2B,

0xE0, 0xD, 0x5B, 0x94, 0x38, 0x4B, 0x1C, 0xCC, 0x4C,

0x88, 0x2C, 0x81, 0xF3, 0x9E, 0x70, 0xF6, 0x58, 0x45,

0xB0, 0x35, 0x5F, 0x6A, 0x8A, 0x32, 0x19, 0x34, 0xDD,

0x4F, 0x7D, 0x36, 0xEE, 0xAB, 0x75, 0x71, 0xF, 0x25,

0xB5, 0xE9, 0x47, 0xF7, 0xCF, 0x43, 0x6C, 0xC6, 0x8F,

0x31, 0xB2, 0x2F, 0xD9, 0x1D, 0xC4, 0xA8, 0xD4, 0x93,

0x73, 0xA7, 0x82, 0x77, 0x66, 8, 0x6B, 1, 0xA9, 0xE3,

0xD5, 0xAD, 0xD7, 0xE5, 0x62, 0x86, 3, 0x22, 0xB4,

0x2D, 0xD1, 0xDF, 0x3E, 0x7B, 0x52, 0xE2, 0x7E, 0x48,

0xE7, 0xB, 4, 0xC8, 0x16, 0xC5, 2, 0xCE, 7, 0x74, 0x80,

5, 0x8D, 1, 2, 4, 8, 0x10, 0x20, 0x40, 0x80, 0x1B,

0x36, 0, 0, 0, 0, 0,

]

state_1 = [dfed0_table[a] for a in state]

print("查表结果: " + bytes(state_1).hex())

# 修改行变换到和日志中的结果一致

def shift_rows(s):

s[0][1], s[1][1], s[2][1], s[3][1] = s[2][1], s[3][1], s[0][1], s[1][1]

s[0][2], s[1][2], s[2][2], s[3][2] = s[3][2], s[0][2], s[1][2], s[2][2]

s[0][3], s[1][3], s[2][3], s[3][3] = s[1][3], s[2][3], s[3][3], s[0][3]

def print_matrix_hex(matrix):

for row in matrix:

print(' '.join(['{:02x}'.format(x) for x in row]))

state_1 = np.asarray(state_1).reshape(4, 4)

print_matrix_hex(state_1)

shift_rows(state_1)

print("移位结果: ")

print_matrix_hex(state_1)

# 下面则需要进行列混淆

def gf_multiply(a, b):

p = 0

counter = 0

while b:

if b & 1:

p ^= a

a <<= 1

if a & 0x100:

a ^= 0x11B

b >>= 1

counter += 1

return p

def mix_columns(state):

new_state = [[0 for _ in range(4)] for _ in range(4)]

mix_matrix = [

[0x02, 0x03, 0x01, 0x01],

[0x01, 0x02, 0x03, 0x01],

[0x01, 0x01, 0x02, 0x03],

[0x03, 0x01, 0x01, 0x02]

]

for col in range(4):

for row in range(4):

for k in range(4):

new_state[row][col] ^= gf_multiply(mix_matrix[row][k], state[k][col])

return new_state

state_1 = mix_columns(state_1)

print("列混淆结果: ")

print_matrix_hex(state_1)

验证之后更加确定是aes魔改的算法了，后面的日志都可以带入aes计算逻辑了，而且发现只是计算的轮数被减少了，只保留了3轮计算，并且加密使用的密钥和iv是固定的，并且是固定字节的md5的结果这里和X-Argus AES部分类似，而且和海外版也保持一致所以还原算法时，轮钥和初始化向量可以固定。下面给出随手还原验证代码, 是分析过程脚本，部分注释不准确：

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

# 此字节数组前16字节看成是iv，中间16字节看成是轮钥，最后16字节看成是固定字节

fixed_bytes = fixed_bytes_1 = bytes.fromhex("ea2b045b11bf2364839e6ab27f95a9df84e705c7955826a316c64c116953e5ce62028a3df75aac9ee19ce08f88cf0541")

# 这里显然还是有填充的

# a6859ef7500129091896b693bda37a64

message_hex_str = "a6859ef7500129091896b693bda37a6484bc760816db6c7c7ee4d68af2b5327acb93cbaa1068e3970264df8a0437c4cebda4a78aa358a5c3c79b532abeba15788f80dd7af08eebb976deb674ed5a014a4d4bee0be3e8bf4a71d8bc3fee832aa16c6315c8abad40a1163ff89caccf44197018cd7de9dcac8b49864f0f97adfc4eea9da3f4b93497badb9b51403b2f7d34df872cc79aed512673e6335feee72db6b512885638b4e2a28668e185e3016d7f76aa10084c26c095e995d990c91e93895faccdfe79b609354bda5fdd4588715a0e07f53bea3536a940935dccf3bf9889608bc6d951554d7ea1ac333cb2ac95e7f1fbe572c3f750f6af3804d650f372dfc9635c649dfa9ea9901b257976cad8ab8393070aea4288a30cf2fd77e6fffd77e6ff514a0c0c0c0c0c0c0c0c0c0c0c0c"

message = bytes.fromhex(message_hex_str)

print(message[:-12].hex())

# TODO: 后买再研究padding问题

# message_paded = pad(message, 16)

# print(message_paded.hex())

def print_matrix_hex(matrix):

for row in matrix:

print(' '.join(['{:02x}'.format(x) for x in row]))

# 下面是aes魔改的加密算法