第七章 ARM 反汇编基础（六）（Thumb 汇编指令集）指令的内联函数ThumbExpandImm_C() 计算 i、imm3、imm8 三个域组成的 12 位的值计算解释，有机器码反汇编实例

最新推荐文章于 2022-12-07 15:28:44 发布

qq_25814297-npl

最新推荐文章于 2022-12-07 15:28:44 发布

阅读量1.4k

点赞数

分类专栏：编程

原文链接：https://blog.csdn.net/zlmm741/article/details/105209734?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-8&spm=1001.2101.3001.4242

版权

编程专栏收录该内容

756 篇文章 79 订阅

订阅专栏

第七章 ARM 反汇编基础（六）（Thumb 汇编指令集）

zlmm741 2020-03-30 21:57:49 749 收藏 3
分类专栏：《Android 软件安全权威指南》学习笔记文章标签： android ubuntu 安全
版权
文章目录
Thumb 汇编指令集
16 位 Thumb 指令编码
16 位 Thumb 指令格式解析
32 位 Thumb 指令编码
32 位 Thumb 指令格式解析
Thumb 汇编指令集
作为 ARM 指令集的一个子集，针对代码密度问题提出，具有 16 位的指令宽度
与 ARM 指令的 32 位宽度相比，Thumb 指令集在保留 32 位宽度优势的同时大大节省了系统的存储空间
Thumb 不是一个完整的体系结构，包含的指令集十分有限，常与 ARM 指令搭配使用
第一代 Thumb 指令集更新到 ARMv6T2 后，引入了第二代 Thumb 指令集，使用与 ARM 指令相同的 32 位指令，不仅性能与 32 位 ARM 指令相当，还保留了第一代指令的简洁特性
Thumb 指令和 ARM 指令除了长度不同，寄存器的使用也不同。Thumb 指令集中，R11 ~ R15 寄存器使用 FP、IP、SP、LR、PC 等命名，新的命名方式直接在名称上体现了寄存器的用途，使用上也有限制和差异（相较 ARM 指令）
第一代 Thumb 指令的宽度只有 16 位，在地址读取范围上比 ARM 指令小很多，在进行一些大范围的指令跳转操作时只能切换到 ARM 模式，执行 ARM 指令
16 位 Thumb 指令编码
16 位的 Thumb 指令称第一代 Thumb 指令
格式：

可看到，第一代 Thumb 指令设计十分简洁，只用了一个 bits[15:10] 的 Opcode 域来确定指令及其分类
第一代 Thumb 指令的所有指令及分类方法（Opcode 域中的 x 表示取值可为 0 或 1）：
Opcode   指令或指令类别
00xxxx   移位、加、减、移动与比较指令
010000   数据处理指令
010001   特殊数据指令，分支与交换指令
01001x   常量池加载指令，LDR 指令
0101xx   加载/存储单个数据指令
011xxx   加载/存储单个数据指令
100xxx   加载/存储单个数据指令
10100x   相对于 PC 寄存器的加法指令，ADR 指令
10101x   相对于 SP 寄存器的加法指令，ADD 指令
1011xx   杂项指令
11000x   多寄存器存储指令，STM、STMIA、STMEA 指令
11001x   多寄存器加载指令，LDM、LDMIA、LDMFD 指令
1101xx   条件分支与中断指令
11100x   无条件分支指令，B 指令
在用 Android NDK 编译代码时，若想默认生成 Thumb 指令而非 ARM 指令，可在编译代码时指定 -mthumb 参数：
$CC app.c -fPIE -S -mthumb -march=armv5te
在生成的汇编代码中，子程序会的开头会自动添加 .thumb_func 伪指令
16 位 Thumb 指令格式解析
以十六进制值 0x4611 为例，分析其指令编码，找出其对应的 Thumb 指令
用计算器查看其二进制编码：

bits[15:10] 的 Opcode 域的值为 0b010001，对应指令分类中的特殊数据指令、分支与交换指令系列，具体的指令格式：

bits[9:6] 的 Opcode 域的值为 0b1000，对应 MOV 低位寄存器指令，格式：

MOV<c> <Rd>, <Rm>
对应的指令的位域分布：

指令伪代码描述：
d = UInt(D:Rd);
m = UInt(Rm);
setflags = FALSE;
if d == 15 && InitBlock() && !LastInitBlock()
then UNPREDICTABLE;
1
2
3
4
5
d 等于 15 被定义为不可预知行为，所以，bits[7:3] 不能为 0b10101。Rm 寄存器为源寄存器，取值为 0b0010（表示 R2 寄存器）。Rd 为目标寄存器，取值为 0b001（表示 R1 寄存器）
综上，这条指令的完整格式为 MOV R1, R2
验证（此处为大端序）：

32 位 Thumb 指令编码
32 位的 Thumb 指令又称 Thumb-2 指令
Thumb 指令分为 16 位和 32 位两个版本，如何区分？若一段汇编代码中包含 Thumb、Thumb-2、ARM 三种类型的指令，处理器在执行代码时要用什么方法正确区分它们？Thumb 与 ARM 间的切换采用 CPSR 的 T 标志位，在执行 BX、BLX 指令时，处理器模式的切换依赖于执行地址的最低位（bit[0]）。Thumb 与 Thumb-2 间的指令识别依赖于指令编码格式的设计准则
ARM 规定：一条 Thumb 指令的 bits[15:11]（高五位）有如下取值时，表示这是一条 Thumb-2 指令：
0b11101：高三位全为 1，当第四位为 0 时，第五位必须为 1（因为 0b11100 在 16 位 Thumb 指令中被无条件分支指令占用）
0b11110：高四位全为 1
0b11111：高四位全为 1
32 位的 Thumb 指令用两个 16 位表示：

第一个 16 位的高三位永远是 1，然后依次是第一个 16 位的 bits[12:11] 的 op1 域、bits[10:4] 的 op2 域，及第二个 16 位的 bit[15] 的 op 域，它们组合后的不同值表示不同的 32 位 Thumb 指令。完整的指令类别定义：
op1   op2 op   指令类别
01   00xx0xx       多寄存器加载与存储指令
01   00xx1xx       寄存器加载与存储指令
01   01xxxxx       数据处理（寄存器移位）指令
01   1xxxxxx       协处理器指令
10   x0xxxxx   0   数据处理（立即数修改）指令
10   x1xxxxx   0   数据处理（二进制立即数）指令
10       1   分支与杂项指令
11   000xxx0       存储单数据指令
11   001xxx0       高级 SIMD 与结构化加载存储指令
11   00xx001       字节加载指令
11   00xx011       半字加载指令
11   00xx101       字加载指令
11   00xx111       未定义
11   010xxxx       数据处理（寄存器）指令
11   0110xxx       乘法、乘积与绝对差指令
11   0111xxx       长型乘法、长型乘积与除法指令
11   1xxxxxx       协处理器指令
可看出，32 位的 Thumb 指令比 16 位的丰富很多。在用 armeabiv7-a 及以上版本的指令集时，要想编译生成 32 位的 Thumb 代码，要指定 -mthumb 参数。在生成的代码中，编译器会根据场景选择用 16 位或 32 位指令，结果通常是在一段 Thumb 指令的汇编代码中同时包含 16 位与 32 位的 Thumb 指令
执行如下命令，可为 app2.c 生成 Thumb-2 汇编指令：

用 IDA Pro 打开生成的 app2，定位到 main() 处，会看到生成的代码中有 MOVT.W、LDRD.W 这种带 .W 后缀的指令，这种指令格式 Thumb-2 特有

32 位 Thumb 指令格式解析
以十六进制数 0xF0814100 为例，分析其指令编码，找到其对应的 Thumb-2 指令（自己添加0xF0814100是机器码，下面例子是转为汇编指令的过程2021.4.2）
用计算器查看其二进制编码：

bits[12:11] 的 op1 域值为 0b10，bits[10:4] 的 op2 域值为 0b0001000，对应的指令类别为数据处理（立即数修改）指令。其指令格式：

第一个 16 位的 bits[8:5] 的 op 域值为 0b0100，第二个 16 位的 bits[11:8] 的 Rd 域值为 0b0001，对应的指令为 EOR（立即数指令）。EOR 指令格式：

EOR<S><c> <Rd>, <Rn>, #<const>
对应的指令二进制位域分布：

可看到，此指令的格式较复杂。Rd 的值为 0b0001，表示 R1 寄存器；Rn 的值为 0b001，表示也是 R1 寄存器。这里重要的是如何计算 const 的值
EOR 的伪代码描述：
if Rd == '1111' && S == '1'
then SEE TEQ (immediate);
d = UInt(Rd);
n = UInt(Rn);
setflags = (S == '1');
(imm32, carry) = ThumbExpandImm_C(i:imm3:imm8, APSR.C);
if BadReg(n)
then UNPREDICTABLE;
1
2
3
4
5
6
7
8
imm32 的值就是 const 的值，它的计算由 ThumbExpandImm_C() 完成。传入的参数有两个，一个是由 i、imm3、imm8 三个域组成的 12 位的值，另一个是 APSR 的 C 标志。这里主要看前一个参数的取值。i 的值为 0，imm3 域为第二个 16 位的 bits[14:12]，值为 0b100，imm8 域为第二个 16 位的 bits[7:0]，值为 0b00000000，合起来就是 0b010000000000
ARM 指令参考手册中，ThumbExpandImm_C() 的伪代码：
// ThumbExpandImm_C()
// ==================

(bits(32), bit) ThumbExpandImm_C(bits(12) imm12, bit carry_in)

if imm12<11:10> == '00' then
case imm12<9:8> of
when '00'
imm32 = ZeroExtend(imm12<7:0>, 32);
when '01'
if imm12<7:0> == '00000000'
then UNPREDICTABLE;
imm32 = '00000000' : imm12<7:0> : '00000000' : imm12<7:0>;
when '10'
if imm12<7:0> == '00000000'
then UNPREDICTABLE;
imm32 = imm12<7:0> : '00000000' : imm12<7:0> : '00000000';
when '11'
if imm12<7:0> == '00000000'
then UNPREDICTABLE;
imm32 = imm12<7:0> : imm12<7:0> : imm12<7:0> : imm12<7:0>;
carry_out = carry_in;
else
unrotated_value = ZeroExtend('1':imm12<6:0>, 32);
(imm32, carry_out) = ROR_C(unrotated_value, UInt(imm12<11:7>));
return (imm32, carry_out);
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
根据 imm12 的高两位判断，其值为 0b01，会执行 else 语句处的指令，ZeroExtend() 将 1 与 imm12 的低七位组合后，扩展到 32 位，即 unrotated_value 的值是一个 32 位的整数且只有第八位为 1，其他位均为 0。接着，ROR_C() 进行循环右移，伪代码：
// ROR_C()
// =======

(bits(N), bit) ROR_C(bits(N) x, integer shift)
assert shift != 0;
m = shift MOD N;
result = LSR(x, m) OR LSL(x, N-m);
carry_out = result<N-1>;
return (result, carry_out);
1
2
3
4
5
6
7
8
9
将 unrotated_value 的值循环右移 shift 位。shift 的值为 imm12 的高五位，为 0b01000，即 8。循环右移 8 位后，第八位的 1 到了最高位（第三十一位），其他全部为 0，结果为 0x80000000
综上，0xF0814100 对应的 Thumb-2 指令为 EOR R1, R1, #0x80000000
rasm2 命令不支持对 Thumb-2 指令数据进行汇编，但支持对 Thumb-2 指令反汇编，可执行如下命令验证上述结果：

上述举例是机器码反汇编转为汇编指令

ubuntu是linux系统下的反汇编工具

自己添加汇编指令eor r1,r1,0x80000000 转机器码81 F0 00 41 ，体会立即数转换过程

之所以传入 0x81F00041 而非 0xF0814100，是因为 Thumb-2 虽是 32 位，但读取和解析仍以 16 位进行，对应的小端字节序的数据与 32 位的情况有所不同
————————————————
版权声明：本文为CSDN博主「zlmm741」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/zlmm741/article/details/105209734