对程序员来说程序的机器级表示一般而言是透明的,编译器负责从高级语言翻译到二进制的机器语言用以执行,从机器级的表示来审视程序,使得程序员能够明白程序底层在干什么,从而更得心应手地操控程序。
1. 初看汇编语言及其指令
此处机器表示即是 编译器编译生产的汇编语言,当然是以文本形式而非二进制形式,Linux环境中使用gcc编译器使用 -S 参数即可生产汇编文本文件(后缀 .s)用以查看,例如对hello.c源码进行汇编:
$ gcc -S hello.c
。根据系统不同,汇编文件格式遵循gcc标准或者intel标准。
数据格式,操作数以及指令
- 先看看数据格式对应字节:
数据类型 | type | bit 二进制位 | byte 字节 | GAS汇编指令后缀 | |
---|---|---|---|---|---|
char | 字节 | char | 8 bit | 1 字节 | b; movb |
short | 字 | word | 16 bit | 2 字节 | w; movw |
int; long int;float | 双字 | double words | 32 bit | 4字节 | l;movl |
long long int; double | 四字 | quad words | 64 bit | 8字节 | q;movq |
-
寄存器 register
IA32 的CPU中有8个 32-bit常见寄存器,名字以%开始
例如%eax,%esp,%edi,对于64-bit机器,以常见exa为例,其64-bit 寄存器表示为 %rax,32 bit %exa,16bit %ax, 8 bit (high) %ah, 8 bit (low) %al -
操作数operand
指令紧跟对应一个或多个操作数,其大致有三类:
1.立即数 immediate, $0xFF ,直接使用该值, 称为立即数寻址
2.寄存器 ,例如%eax,访问寄存器exa的值,称为寄存器寻址
3.存储器引用,例如(%eax) 根据有效地址(根据寄存器值和其他量计算而得)访问存储器,多种寻址:绝对寻址,基址、变址、伸缩变址等等 -
汇编指令
– 数据传送指令 mov 频繁使用,对不同字节有
movb,movw,movl,movq
把寄存器数据传送到存储器,或者把存储器数据传送到寄存器
– 算术和逻辑操作
– 加载有效地址指令load effective address,LEAL
将有效地址写入目的操作数destination(某寄存器)
leal (%eax,%eax,4), %edx ; 第一个操作数不是存储器的引用,是个表达式
l e a l ∗ s ∗ o u r c e , ∗ ∗ D ∗ ∗ e s t i n a t i o n leal *s*ource, **D**estination leal∗s∗ource,∗∗D∗∗estination &s -> D
–位移操作
shll sall
shrl sarl算术右移 -
条件码 条件指令
条件寄存器 CF进位标志(unsigned) ,ZF零标志,SF符号标志(signed),OF溢出标注(signed)
cmp test set
jmp je jl jg / ja jb -
if-else 条件测试及条件跳转
-
while/for 的汇编实现