【学习札记NO.00001】X86汇编学习札记-0001-预备知识 by arttnba3

本文链接：https://blog.csdn.net/arttnba3/article/details/101772408

X86汇编学习札记-0001-预备知识

写在开始之前
虚拟机模型
补码
32位X86处理器架构&计算机组件
64位X86-64处理器
记于结束之后

写在开始之前

内容基本上都总结于《汇编语言：基于X86处理器》，因为本人最近在学习这本书，所以顺便将自己学到的摘抄下来做个札记

（也会有少部分内容来自其他大佬的博客啥的，不过都是本蒟蒻自己总结出来的版本）

（不定期会更新一些小内容，最新更新日期：2020.5.6）

虚拟机模型

绪论

我们都知道，计算机可以直接执行由其原生机器的机器语言所编写的程序，这种语言当中的每一条指令都可以使用相对少量的电子电路来执行，为了方便我们下文就称作L0吧

由于L0都是使用纯数字的机器码进行编写的缘故，使用L0就变得极其困难，早期的计算机科学家们便想到开发一种更为简洁的语言L1以编写程序

但是机器依然是“在L0上跑的”，我们使用L1编写的程序最终依然要转为L0，那么我们有两种方法：

一、解释（Interpretation）

在运行L1程序时，每一条L1指令都由一个专门的L0编写的程序进行译码和执行，此时L1程序是可以立即启动的，但是需要在执行之前对每一条L1指令进行译码

二、翻译（Translation）

由一个专门设计的程序将编写好的L1程序转换为L0程序，之后这个新程序便可以直接运行

翻译其实就是编译->构建的一个过程

由此也分出了两种类型的编程语言：脚本语言与静态语言，对应解释与翻译

基本概念

对于上面的说法，我们可以将每一层都想象成有一台虚拟机(virtual machine)在运作着，这台虚拟机可以由硬件构成也可以由软件构成

比如说对于上面的L0-L1模型，我们可以认为有着一台虚拟机VM₁，可以执行L1语言编写的指令，相对的其底层也存在着一个VM₀：

Virtual Machine 1
Virtual Machine 0

我们可以为VM1编写L1语言程序，若是VM1能够作为真实计算机予以实现，程序便可以直接运行，否则就解释/翻译成L0语言程序在VM0上执行

要使解释/翻译耗时不会太长，VM0与VM1的差距便不应太大，若是依此开发的L1用起来依然十分麻烦，我们可以在VM₁上再设计一层虚拟机VM₂…直到VM_n时我们便能使用足够方便、功能足够强大的语言L_n编写程序

例如用JAVA写的程序便是跑在虚拟机JVM上的，而JVM已经能在很多计算机上实现了

豆知识：《汇编语言：基于X86处理器里》的虚拟机的英文是virtual machine machine，即虚拟??（大误）

现实状况

运行在计算机最底层的便是我们常说的数字逻辑硬件了，即计算机当中真实存在着的物质的集合

其上一层便是指令集架构（Instruction Set Architecture），这也是我们所能进行编程的第一个层次，虽然使用的是只有二进制数值的机器语言

汇编语言又在更上一层，使用短助记符，可以看作是将机器语言“直接翻译成可读文本”，这种语言十分易于通过ISA层里提供的翻译层转换到ISA层

高级语言则毫无疑问在汇编语言的更上一层，通常以一对多的原则将一条指令翻译成多条汇编语言指令

如:
int x = ( y + 4 ) * 3;
这样一条简单的语句转换为汇编语言后是下面这样的：
mov eax,y
add eax,4
mov ebx,3
imul ebx
mox x,eax

层次结构如下：

高级语言
汇编语言
指令集架构
数字逻辑硬件

补码

我们都知道在计算机当中所有的数据都是以二进制的形式储存的，对于有符号整型而言通常其最高有效位(Max Significant Bit, 即MSB, 相对应的是Least Significant Bit)用以表示符号位，0为正数，1为负数

正数我们都知道很好表示，直接以二进制形式储存便可，那么负数呢？

通常在计算机中负数使用补码表示，即其正数的加法逆元（即常说的相反数）

将一个二进制数按位取反后再加上一，便得到了他的补码

有了补码表示法，处理器便不需要两套独立的电路来处理四则运算（其实本质上只有一则）

例如一个8位二进制数0000 0001_（2），即十进制数1_（10）
它的相反数为-1_（10）
我们将0000 0001_（2）按位取反，得到1111 1110_（2）
再加上1，便成了1111 1111_（2）
这便是补码表示的-1_（10）

虽然说数据储存方式一共有三种，但是现代计算机当中数据基本以补码方式进行储存

32位X86处理器架构&计算机组件

基本架构

一台微型计算机的基本架构通常如下图：
在这里插入图片描述

一、CPU(Central Processing Unit)

CPU即中央处理单元，是计算机进行算术与逻辑运算的核心部件

CPU内包含的内容如下：
在这里插入图片描述

1、寄存器（Register）

寄存器直接位于CPU的内部，是一种高速存储位置，其访问速度远远高于任何传统存储器（包括cache），可以类比为“最高速的内存”。因此当一个程序为了速度需要进行优化时，常常选择把某些数据储存在寄存器当中（如：循环的计数）。

寄存器由于其位置的特殊性，数量稀少，某种程度而言是计算机内的“稀缺资源”

PS：C语言当中有一个关键字叫register，用以申请将变量储存在寄存器当中，不过一般都是失败…

（1）基本程序执行寄存器(Basic Program Execution Registers)

32位x86处理器当中的基本程序执行寄存器包括：8个通用寄存器，6个段寄存器，1个处理器状态标志寄存器(EFLAGS)，1个指令指针寄存器(EIP)

I.通用寄存器

通用寄存器主要用于算术运算与数据传输，在8086处理器中一共有四个32位的通用寄存器，其可供访问的16位组成部分为：4个数据寄存器、2个指针寄存器与2个变址寄存器

为什么我们又说16位又说32位呢，因为实际上一个32位的寄存器可以看作由两个16的寄存器构成的，同样的一个16位的寄存器也可以看作是由两个8位寄存器构成的，例如我们在访问32位寄存器EAX时，可以通过名称AX访问其低16位，也可以通过AH&AL访问AX的高&低16位
在这里插入图片描述
下表给出四个32位的数据寄存器寄存器的构成：

指针寄存器与变址寄存器只能使用32位或16位名称进行访问，如下表：在这里插入图片描述

以下给出八个常用的16位“寄存器”的相关数据：

1).数据寄存器：AX、BX、CX、DX

AX（accumulator）：

AX寄存器即为累加寄存器，常用于数据的运算，也是我们在使用汇编语言当中所调用的最为频繁的寄存器

作为16位寄存器，毫无疑问，它可以储存16位的数据，但是实际上AX是由两个8位的寄存器：AH&AL组成的，因而它也可以储存两个8位的数据。其中：AH为高8位寄存器，AL为低8位寄存器

AX寄存器也是所有I/O指令与外界设备进行数据传输的通道

乘除指令默认使用EAX，因此它常被称为扩展累加（extended accumulator）寄存器

BX（base）：

BX寄存器即基址寄存器，常被用于地址索引，其中所储存的数据一般被作为偏移地址（Offset Address）来使用，用于寻址

什么是偏移地址？偏移地址又被称为偏移量，顾名思义就是相对于一个“主地址”的偏移位置，这个“主地址”我们称之为段首地址（段地址）

什么是段地址？计算机在对内存进行访问之前，要先对内存进行分段(Memory segmentation，一种内存管理技术，将内存电脑的主内存分为多个段)，而段地址是针对内存的分段而言的。每一段的段首地址被定义为段地址。段地址的存在是由系统的分段存储决定的，通过段地址和偏移地址就能对数据进行寻访

段地址常被储存在段寄存器当中，我们将在下文对其进行讲解

有了段地址和偏移地址，我们便可以计算出内存实际的物理地址：

当系统需要产生一个20位地址的时候，一个段寄存器会自动被选择。且自动左移4位再与一个16位地址偏移量相加产生所需的20位地址
（来自：张怀莲.《IBM PC(INTEL 8086/8088)宏汇编语言程序设计》）

在以前，电脑的寄存器都是十六位的，寻址空间是二十位的(内存1MB)，所以单用一个寄存器无法寻址到所有地址，因此用两个寄存器或一个寄存器加一个立即数，用cs，ds，ss，es等以s结尾的寄存器作为段寄存器，用一个寄存器或立即数做偏移量，因为两个十六位寄存器加起来是三十二位，比数据总线位数宽，所以分段寻址采用了如下的寻址方式:段寄存器×10H(十六进制)+偏移量，这样所计算出来的就是一个二十位的数据，就可以寻址到所有地址，其中段寄存器×10H(十六进制)所得到的地址就是段的基址，所以基址都是以00(十六进制)结尾的。而现在的寄存器都是64位的，寻址可达192G，而通常电脑内存是没有大于192G的，所以就不用分段，用一个寄存