X86汇编学习札记-0001-预备知识
- 写在开始之前
- 虚拟机模型
- 补码
- 32位X86处理器架构&计算机组件
- 64位X86-64处理器
- 记于结束之后
写在开始之前
内容基本上都总结于《汇编语言:基于X86处理器》,因为本人最近在学习这本书,所以顺便将自己学到的摘抄下来做个札记
(也会有少部分内容来自其他大佬的博客啥的,不过都是本蒟蒻自己总结出来的版本)
(不定期会更新一些小内容,最新更新日期:2020.5.6)
虚拟机模型
绪论
我们都知道,计算机可以直接执行由其原生机器的机器语言所编写的程序,这种语言当中的每一条指令都可以使用相对少量的电子电路来执行,为了方便我们下文就称作L0吧
由于L0都是使用纯数字的机器码进行编写的缘故,使用L0就变得极其困难,早期的计算机科学家们便想到开发一种更为简洁的语言L1以编写程序
但是机器依然是“在L0上跑的”,我们使用L1编写的程序最终依然要转为L0,那么我们有两种方法:
一、解释(Interpretation)
在运行L1程序时,每一条L1指令都由一个专门的L0编写的程序进行译码和执行,此时L1程序是可以立即启动的,但是需要在执行之前对每一条L1指令进行译码
二、翻译(Translation)
由一个专门设计的程序将编写好的L1程序转换为L0程序,之后这个新程序便可以直接运行
翻译其实就是编译->构建的一个过程
由此也分出了两种类型的编程语言:脚本语言与静态语言,对应解释与翻译
基本概念
对于上面的说法,我们可以将每一层都想象成有一台虚拟机(virtual machine)在运作着,这台虚拟机可以由硬件构成也可以由软件构成
比如说对于上面的L0-L1模型,我们可以认为有着一台虚拟机VM1,可以执行L1语言编写的指令,相对的其底层也存在着一个VM0:
Virtual Machine 1 |
---|
Virtual Machine 0 |
我们可以为VM1编写L1语言程序,若是VM1能够作为真实计算机予以实现,程序便可以直接运行,否则就解释/翻译成L0语言程序在VM0上执行
要使解释/翻译耗时不会太长,VM0与VM1的差距便不应太大,若是依此开发的L1用起来依然十分麻烦,我们可以在VM1上再设计一层虚拟机VM2…直到VMn时我们便能使用足够方便、功能足够强大的语言Ln编写程序
例如用JAVA写的程序便是跑在虚拟机JVM上的,而JVM已经能在很多计算机上实现了
豆知识:《汇编语言:基于X86处理器里》的虚拟机的英文是virtual machine machine,即虚拟??(大误)
现实状况
运行在计算机最底层的便是我们常说的数字逻辑硬件了,即计算机当中真实存在着的物质的集合
其上一层便是指令集架构(Instruction Set Architecture),这也是我们所能进行编程的第一个层次,虽然使用的是只有二进制数值的机器语言
汇编语言又在更上一层,使用短助记符,可以看作是将机器语言“直接翻译成可读文本”,这种语言十分易于通过ISA层里提供的翻译层转换到ISA层
高级语言则毫无疑问在汇编语言的更上一层,通常以一对多的原则将一条指令翻译成多条汇编语言指令
如:
int x = ( y + 4 ) * 3;
这样一条简单的语句转换为汇编语言后是下面这样的:
mov eax,y
add eax,4
mov ebx,3
imul ebx
mox x,eax
层次结构如下:
高级语言 |
---|
汇编语言 |
指令集架构 |
数字逻辑硬件 |
补码
我们都知道在计算机当中所有的数据都是以二进制的形式储存的,对于有符号整型而言通常其最高有效位(Max Significant Bit, 即MSB, 相对应的是Least Significant Bit)用以表示符号位,0为正数,1为负数
正数我们都知道很好表示,直接以二进制形式储存便可,那么负数呢?
通常在计算机中负数使用补码表示,即其正数的加法逆元(即常说的相反数)
将一个二进制数按位取反后再加上一,便得到了他的补码
有了补码表示法,处理器便不需要两套独立的电路来处理四则运算(其实本质上只有一则)
例如一个8位二进制数0000 0001(2),即十进制数1(10)
它的相反数为-1(10)
我们将0000 0001(2)按位取反,得到1111 1110(2)
再加上1,便成了1111 1111(2)
这便是补码表示的-1(10)
虽然说数据储存方式一共有三种,但是现代计算机当中数据基本以补码方式进行储存
32位X86处理器架构&计算机组件
基本架构
一台微型计算机的基本架构通常如下图:
一、CPU(Central Processing Unit)
CPU即中央处理单元,是计算机进行算术与逻辑运算的核心部件
CPU内包含的内容如下:
1、寄存器(Register)
寄存器直接位于CPU的内部,是一种高速存储位置,其访问速度远远高于任何传统存储器(包括cache),可以类比为“最高速的内存”。因此当一个程序为了速度需要进行优化时,常常选择把某些数据储存在寄存器当中(如:循环的计数)。
寄存器由于其位置的特殊性,数量稀少,某种程度而言是计算机内的“稀缺资源”
PS:C语言当中有一个关键字叫register,用以申请将变量储存在寄存器当中,不过一般都是失败…
(1)基本程序执行寄存器(Basic Program Execution Registers)
32位x86处理器当中的基本程序执行寄存器包括:8个通用寄存器,6个段寄存器,1个处理器状态标志寄存器(EFLAGS),1个指令指针寄存器(EIP)
I.通用寄存器
通用寄存器主要用于算术运算与数据传输,在8086处理器中一共有四个32位的通用寄存器,其可供访问的16位组成部分为:4个数据寄存器、2个指针寄存器与2个变址寄存器
为什么我们又说16位又说32位呢,因为实际上一个32位的寄存器可以看作由两个16的寄存器构成的,同样的一个16位的寄存器也可以看作是由两个8位寄存器构成的,例如我们在访问32位寄存器EAX时,可以通过名称AX访问其低16位,也可以通过AH&AL访问AX的高&低16位
下表给出四个32位的数据寄存器寄存器的构成:
指针寄存器与变址寄存器只能使用32位或16位名称进行访问,如下表:
以下给出八个常用的16位“寄存器”的相关数据:
1).数据寄存器:AX、BX、CX、DX
AX(accumulator):
AX寄存器即为累加寄存器,常用于数据的运算,也是我们在使用汇编语言当中所调用的最为频繁的寄存器
作为16位寄存器,毫无疑问,它可以储存16位的数据,但是实际上AX是由两个8位的寄存器:AH&AL组成的,因而它也可以储存两个8位的数据。其中:AH为高8位寄存器,AL为低8位寄存器
AX寄存器也是所有I/O指令与外界设备进行数据传输的通道
乘除指令默认使用EAX,因此它常被称为扩展累加(extended accumulator)寄存器
BX(base):
BX寄存器即基址寄存器,常被用于地址索引,其中所储存的数据一般被作为偏移地址(Offset Address)来使用,用于寻址
什么是偏移地址?偏移地址又被称为偏移量,顾名思义就是相对于一个“主地址”的偏移位置,这个“主地址”我们称之为段首地址(段地址)
什么是段地址?计算机在对内存进行访问之前,要先对内存进行分段(Memory segmentation,一种内存管理技术,将内存电脑的主内存分为多个段),而段地址是针对内存的分段而言的。每一段的段首地址被定义为段地址。段地址的存在是由系统的分段存储决定的,通过段地址和偏移地址就能对数据进行寻访
段地址常被储存在段寄存器当中,我们将在下文对其进行讲解
有了段地址和偏移地址,我们便可以计算出内存实际的物理地址:
当系统需要产生一个20位地址的时候,一个段寄存器会自动被选择。且自动左移4位再与一个16位地址偏移量相加产生所需的20位地址
(来自:张怀莲.《IBM PC(INTEL 8086/8088)宏汇编语言程序设计》)
在以前,电脑的寄存器都是十六位的,寻址空间是二十位的(内存1MB),所以单用一个寄存器无法寻址到所有地址,因此用两个寄存器或一个寄存器加一个立即数,用cs,ds,ss,es等以s结尾的寄存器作为段寄存器,用一个寄存器或立即数做偏移量,因为两个十六位寄存器加起来是三十二位,比数据总线位数宽,所以分段寻址采用了如下的寻址方式:段寄存器×10H(十六进制)+偏移量,这样所计算出来的就是一个二十位的数据,就可以寻址到所有地址,其中段寄存器×10H(十六进制)所得到的地址就是段的基址,所以基址都是以00(十六进制)结尾的。而现在的寄存器都是64位的,寻址可达192G,而通常电脑内存是没有大于192G的,所以就不用分段,用一个寄存