汇编程序基本结构+利用DOS系统编译连接汇编程序

一、一个源程序从写出到执行的过程

下图描述了一个汇编程序从写出到最终执行的简要过程:
在这里插入图片描述
整个过程如下所示:

  1. 编写汇编源程序: 首先我们使用文本编辑器(如Edit、记事本等),用汇编语言编写汇编源程序。这一步工作的结果是产生了一个存储源程序的文本文件。
  2. 对源程序进行编译连接: 接下来我们使用编译程序对源程序进行编译,产生目标文件;再用连接程序对目标文件进行连接,生成可在操作系统中直接运行的可执行文件。可执行文件包括两部分内容:
    a. 程序(从源程序中的汇编指令翻译来的机器码)和数据(源程序中定义的数据)
    b. 相关的描述信息(比如,程序有多大、要占用多少内存空间等)
    这一步工作的结果:产生了一个可在操作系统中运行的可执行文件。
  3. 执行可执行文件中的程序: 操作系统依照可执行文件中的描述信息,将可执行文件中的机器码和数据加载入内存,并进行相关的初始化(比如设置CS:IP指向第一条要执行的指令),然后由CPU执行程序。

二、源程序解析

下面就是一段简单的汇编语言源程序:

程序4.1

assume cs:codesg

codesg segment
	mov ax,0123H
	mov bx,0456H
	add ax,bx

	mov ax,4c00H
	int 21H
codesg ends

end

接下来对上面的程序进行说明。

2.1 伪指令

在汇编语言源程序中,包括两种指令,一种是汇编指令,一种是伪指令。汇编指令是有对应的机器码的指令,可以被编译为机器指令,最终被CPU执行。而伪指令没有对应的机器指令,不会被CPU执行,伪指令由编译器来执行,编译器根据伪指令来进行相关的编译工作。

在程序4.1 中出现了三种伪指令:

2.1.1 XXX segment +…+ XXX ends

segments和ends是成对使用的伪指令,这是在写可被编译器编译的汇编程序时,必须要用到的一对伪指令。segment和ends的功能是定义一个段,segment说明一个段开始,ends说明一个段结束。一个段必须用一个名称来标识,使用格式为:

段名 segment
	...
	...
	...
段名 ends

比如,程序4.1中的:

codesg segment			;定义一个段,段的名称为"codesg",这个段从这里开始
	...
codesg ends				;名称为"codesg"的段到这里结束

一个汇编程序是由多个段组成的,这些段被用来存放代码、数据或当作栈空间来使用。一个源程序中所有将被计算机所处理的信息:指令、数据、栈,被划分到了不同的段中。

一个有意义的汇编程序中至少要有一个段,这个段用来存放代码。

2.1.2 end

end是一个汇编程序的结束标记,编译器在编译汇编程序的时候,如果碰到了伪指令end,就结束对源程序的编译。所以,在我们写程序的时候,如果程序写完了,要在结尾处加上伪指令end。否则,编译器在编译程序时,无法知道程序在何处结束。

2.1.3 assume

这条伪指令的含义为"假设”。它假设某一段寄存器和程序中的某一个用segment…ends定义的段相关联。通过assume说明这种关联,在需要的情况下,编译程序可以将段寄存器和一个具体的段相联系。assume并不是一条非要深入理解不可的伪指令,我们编程时记着用assume将有特定用途的段和相关的段寄存器关联起来即可。

比如,在程序4.1中,我们用codesg segment ... codesg ends定义了一个名为codesg的段,在这个段中存放代码,所以这个段是一个代码段。在程序的开头,用assume cs:codesg将用作代码段的codesg和CPU中的段寄存器cs联系起来。

2.2 源程序中的“程序”

用汇编语言写的源程序,包括伪指令和汇编指令。源程序中的汇编指令组成了最终由计算机执行的程序,而源程序中的伪指令是由编译器来处理的,它们并不实现我们编程的最终目的。我们这里所说的”程序“就是指源程序最终由计算机执行、处理的指令或数据。

注意,以后可以将源程序文件中的所有内容成为源程序,将源程序中最终由计算机执行、处理的指令或数据,称为程序。程序最先以汇编指令的形式存在源程序中,经编译、连接后转变为机器码,存储在可执行文件中。这个过程如图4.2所示:

在这里插入图片描述

2.3 标号

汇编源程序中,除了汇编指令和伪代码外,还有一些标号,比如“codesg”。一个标号指代了一个地址。比如codesg在segment的前面,作为一个段的名称,这个段的名称最终将被编译、连接程序处理为一个段的段地址。

2.4 程序的结构

源程序是由一些段构成的。我们可以在这些段中存放代码、数据,或将某个段当作栈空间。

假设我们现在要编程运算 2 3 2^3 23,那么源程序该怎么写呢?

首先要定义一个段

假设段名为abc

abc segment
	...
abc ends

接下来在这个段中写入汇编指令,来实现我们的任务

abc segment
	mov ax,2
	add ax,ax
	add ax,ax
abc ends

然后,要指出程序在何处结束

abc segment
	mov ax,2
	add ax,ax
	add ax,ax
abc ends

end

abc被当作代码段来使用,所以,应该将abc和cs联系起来。(对于这个程序,也不是非这样做不可)

assume cs:abc

abc segment
	mov ax,2
	add ax,ax
	add ax,ax
abc ends

end

最终写成的程序如程序4.2所示

程序4.2

assume cs:abc

abc segment
	mov ax,2
	add ax,ax
	add ax,ax
abc ends

end

2.5 程序返回

我们的程序最先以汇编的形式存在源程序中,经编译、连接后转变为机器码,存储在可执行文件中。接下来我们在DOS的基础上,讨论下程序怎样执行。

假设现在有一个程序P2在可执行文件中,则必须有一个正在运行的程序P1,将P2从可执行文件中加载入内存后,将CPU的控制权交给P2,P2才能得以运行。P2开始运行后,P1暂停运行。

一个程序结束后,将CPU的控制权交还给使它得以运行的程序,我们称这个过程为:程序返回。我们应当在程序的末尾添加返回的程序段。

回过头来看下程序4.1中的两条指令:

mov ax,4c00H
int 21H

这两条指令所实现的功能就是程序返回。

2.6 语法错误和逻辑错误

程序4.2在运行时会引发一些问题,因为程序没有返回。这个错误在编译的时候是不能表现出来的,也就是说,程序4.2对于编译器来说是正确的程序。

一般来说,程序在编译时被编译器发现的错误是语法错误,比如将程序4.2改写成下面这样就会发生语法错误:

aume cs:abc

abc segment
	mov ax,2
	add ax,ax
	add ax,ax
end

显然,程序中有编译器不能识别的aume,而且编译器在编译的过程中也无法知道abc段到何处结束。

在源程序编译后,在运行时发生的错误是逻辑错误。语法错误容易发现,也容易解决。而逻辑错误通常不容易被发现。不过,程序4.2中的错误却显而易见

assume cs:abc

abc segment
	mov ax,2
	add ax,ax
	add ax,ax
	
	mov ax,4c00H	;之前缺少的两句话
	int 21H			;
abc ends

end

三、编辑源程序

可以用任意的文本编辑器来编辑源程序,只要最终将其存储为纯文本文件即可。比如使用DOS下的Edit,如下是一个例子:

  1. 进入DOS,运行Edit
    在这里插入图片描述
    在这里插入图片描述
  2. 在Edit中编辑程序
    在这里插入图片描述
  3. 将程序保存为c:\l.asm,然后退出Edit,结束对源程序的编辑

四、编译

在上面完成对源程序的编辑后,得到一个源程序文件c:\l.asm。可以对其进行编译,生成包含机器代码的目标文件。

在编译一个源程序之前首先要找到一个相应的编译器,这里我们使用masm汇编编译器,整个编译过程如下所示:

4.1 进入DOS后,运行masm.exe

在这里插入图片描述
在上图中,运行masm后,首先显示出一些版本信息,然后提示输入将要被编译的源程序文件的名称。注意,"[.ASM]“提示我们,默认的文件拓展名是asm,比如,要编译的源程序文件名是"p1.asm”,只要在这里输入"p1"即可。可如果源程序文件不是以asm为拓展名的话,就要输入它的全名。比如源程序文件名为"p1.txt",就要输入全名。

在输入源程序文件名的时候一定要指明它所在的路径。如果文件就在当前路径下,只输入文件名就可以,可如果文件在其他的目录中,则要输入路径,比如,要编译的文件"p1.txt"在"c:\windows\desktop"下,则要输入"c:\windows\desktop\p1.txt"。

这里,我们要编译的文件是C盘根目录下的l.asm,所以此处输入"c:\l.asm"。

4.2 输入要编译的源文件程序名后,按Enter键

在这里插入图片描述
在上图中,输入源程序文件后,程序继续提示我们输入要编译出的目标文件的名称,目标文件是我们对一个源程序进行编译要得到的最终结果。注意屏幕上的显示:"[l.OBJ]",因为我们已经输入了源程序文件名为"l.asm",则编译程序默认要输出的目标文件名为"l.obj",所以可以不必再另行指定文件名。直接按Enter键,编译程序将在当前的目录下,生成l.obj文件。

这里,也可以指定生成的目标文件所在的目录,比如,想让编译程序在"c:\windows|desktop"下生成目标文件"l.obj",则可输入"c:\windows\desktop\l"。

在这里我们直接按Enter键,使用编译程序设定的目标文件名。

4.3 确定了目标文件的名称后,显示如下

在这里插入图片描述
在上图中,编译程序提示输入列表文件的名称,这个文件是编译器将源程序编译为目标文件的过程中产生的中间结果。可以让编译器不生成这个文件,直接按Enter键即可。

4.4 忽略了列表文件的生成后,显示如下

在这里插入图片描述
上图中,编译程序提示输入交叉引用文件的名称,这个文件同列表文件一样,是编译器将源程序编译为目标文件过程中产生的中间结果。可以让编译器不生成这个文件,直接按Enter键即可。

4.5 忽略了交叉引用文件的生成后,显示如下

在这里插入图片描述
上图中,对源程序的编译结束,编译器输出的最后两行通知我们这个源程序没有警告错误和必须要改正的错误。

4.6 总结

上面通过对C盘根目录下的l.asm进行编译的过程,展示了使用汇编编译器对源程序进行编译的方法。按照上面的过程进行了编译后,在编译器masm.exe运行的目录c:\masm(即当前路径)下,将出现一个新的文件l.obj,这是对源程序l.asm进行编译所得到的结果。当然,如果编译的过程出现错误,那么将得不到目标文件。一般来说,有两类错误使我们得不到所期望的目标文件。

  • 程序中有"Severe Errors"
  • 找不到所给出的源程序文件

注意,在编译的过程中,我们提供了一个输入,即源程序文件。最多可以得到3个输出:目标文件(.obj)、列表文件(.lst)、交叉引用文件(.crf),这3个输出文件中,目标文件是我们最终要得到的结果,而另外两个只是中间结果,可以让编译器忽略对它们的生成。

五、连接

在对源程序进行编译得到目标文件后,我们需要对目标文件进行连接,从而得到可执行文件。现在我们将c:\masm\l.obj连接为c:\masm\l.exe。

5.1 进入DOS,以及c:\masm目录,运行link.exe,以c:\masm\l.obj为例

在这里插入图片描述
在上图中,运行link后,首先显示出一些版本信息,然后提示输入将要被连接的目标文件的名称。注意,"[.obj]“提示我们,默认的文件拓展名是obj,比如要连接的目标文件文件名是"p1.obj”,只要这里输入"p1"即可。可如果文件不是以obj为拓展名,就要输入它的全名,比如目标文件名为"p1.bin",就要输入全名。

在输入文件文件名的时候,要指明它所在的路径。这里,要连接的文件是当前目录下的l.obj,所以此处输入"l"

5.2 输入要连接的目标文件名后,按Enter

在这里插入图片描述
在上图中,输入目标文件后,程序继续提示我们输入要生成的可执行文件的名称,可执行文件是我们对一个程序进行连接所要得到的最终结果。注意屏幕上的显示:"[L.EXE]",因为已经确定了目标文件名为l.obj,则程序默认要输出的可执行文件名为L.EXE,所以可以不必再另行指定文件名。直接按Enter键,编译程序将在当前的目录下,生成L.EXE文件。

这里,也可以指定生成的可执行文件所在的目录,比如,想让连接程序在"c:\windows\desktop"下生成可执行文件L.EXE,则可输入"c:\windows\desktop\L"

这里我们直接按Enter键,使用连接程序设定的可执行文件名。

5.3 确定了可执行文件的名称后,显示如下

在这里插入图片描述
上图中,连接程序提示输入映像文件的名称,这个文件是连接程序将目标文件连接为可执行文件过程中产生的中间结果,可以让连接程序不生成这个文件,直接按Enter键即可。

5.4 忽略了映像文件的生成后,屏幕显示如下

在这里插入图片描述
上图中,连接程序提示输入库文件的名称。库文件里面包含了一些可以调用的子程序,如果程序中调用了某一个库文件中的子程序,就需要在连接的时候,将这个库文件和目标文件连接到一起,生成可执行文件。但是,这个程序中没有调用任何子程序,所以,这里忽略库文件的输入,直接按Enter键即可。

5.5 忽略了库文件的连接后,屏幕显示如下

在这里插入图片描述
上图中,对目标文件的连接结束,连接程序输入,连接程序输出的最后一行告诉我们,这个程序中有一个警告错误:”没有栈段“,这里我们不理会这个错误。

5.6 总结

上面我们通过对当前路径下的l.obj进行连接的过程,展示了使用连接器对目标文件进行连接的方法。按照上面的过程进行了连接之后,在连接器link.exe运行的目录c:\masm下(即当前路径下),将出现一个新的文件:l.exe,这是对目标文件l.obj进行连接所得到的结果。当然,如果连接的过程中出现错误,那么将得不到可执行文件。

连接的作用有以下几个:

  • 当源程序很大时,可以将它分为多个源程序文件来编译,每个源程序编译成为目标文件后,再用连接程序将它们连接到一起,生成一个可执行文件
  • 程序中调用了某个库文件中的子程序,需要将这个库文件和该程序生成的目标文件连接到一起,生成一个可执行文件。
  • 一个源程序编译后,得到了存有机器码的目标文件,目标文件中的有些内容还不能直接用来生成可执行文件,连接程序将这些内容处理为最终的可执行信息。所以,在只有一个源程序文件,而又不需要调用某个库中的子程序的情况下,也必须用连接程序对目标文件进行处理,生成可执行文件。

注意,对于连接的过程,可执行文件是我们想到得到的最终结果。

六、以简化的方式进行编译和连接

从上面的内容中,我们可以看出,编译、连接的最终目的是用源程序文件生成可执行文件。在这个过程中产生的中间文件都可以忽略,所以我们可以采用一种较为简便的方式进行编译、连接,这个过程如下图所示(注意命令后的分号):

在这里插入图片描述

七、l.exe的执行

到现在我们将我们的第一个汇编程序加工成了一个可在操作系统下执行的程序文件,现在我们执行下,下图展示了l.exe的执行情况:
在这里插入图片描述
可以看到程序执行后,没有任何结果,就和没有运行过一样。因为我们的程序没有向显示器输出任何信息。

九、程序执行过程的跟踪

可以用Debug来跟踪一个程序的运行过程,这通常是必须要做的工作。接下来说下我们如何使用Debug对程序的执行过程进行跟踪。

在DOS中运行一个程序的时候,是由command将程序从可执行文件中加载入内存,并使其得以执行。但是,这样我们不能逐条指令地看到程序的执行过程,因为command的程序加载,设置CS:IP指向程序的入口的操作是连续完成的,而当CS:IP一指向程序的入口,command就放弃了CPU的控制权,CPU立即开始运行程序,直至程序结束。

为了观察程序的运行过程,可以使用Debug,Debug可以将程序加载入内存,设置CS:IP指向程序的入口,但Debug并不放弃对CPU的控制,这样,我们就可以使用Debug的相关命令来单步执行程序,查看每一条指令的执行结果。

具体过程如下:
在这里插入图片描述
在提示符后输入”debug l.exe“,按Enter键,Debug程序将程序从l.exe中加载入内存,进行相关的初始化后设置CS:IP指向程序的入口。

接下来可以用R命令看下各个寄存器的设置情况,如下图所示:
在这里插入图片描述

图4-19

可以看到,Debug将程序从可执行文件加载入内存后,cx中存放的是程序的长度。l.exe中程序的机器码共有13个字节,则l.exe加载后,cx中的内容为000DH。

现在程序已经从l.exe中装入内存,接下来我们要查看一下它的内容,可以我们查看那里的内容呢?程序被装入内存的什么地方?我们如何得知?

接下来讲解下DOS系统中.exe文件中的程序的加载过程(可以解释上面的问题),下图简要的展示了这个过程:
在这里插入图片描述
注意还有一步称为重定位的工作在上图中没有涉及,因为这个问题和操作系统的关系比较大,所以不做讨论。

从图4.20中我们可以知道以下的信息:

  1. 程序加载后,ds中存放着程序所在内存区的段地址,这个内存区的偏移地址为0,则程序所在的内存区的地址为ds:0
  2. 这个内存区的前256个字节中存放的是PSP,DOS用来和程序进行通信,从256字节处向后的空间存放的是程序。

所以,从ds中可以得到PSP的段地址SA,PSP的偏移地址为0,则物理地址为SA*16+0。

因为PSP占256(100H)字节,所以程序的物理地址是:

SA*16+0+256=(SA+16)*16+0

所以可用段地址和偏移地址表示为:SA+10H:0

现在,我们看下图4.19中DS的值,DS=1cc2,则PSP的地址为1cc2:0,程序的地址为1cd2:0,(即129E+10:0)

图4.19中,CS=1cd2,IP=0000,CS:IP指向程序的第一条指令,注意,源程序中的指令是mov ax,0123H,在Debug中记为mov ax,0123,这是因为Debug默认所有数据都用十六进制表示。

可以用u命令看一下其他指令,如下图所示:
在这里插入图片描述
可以看到,从1cd2:0000~1cd2:000c都是程序的机器码。

现在,我们可以开始追踪了,用T命令单步执行程序中的每一条指令,并观察每条指令的执行结果,到了int 21,我们要用p指令执行,如下图所示:
在这里插入图片描述
在上图中,int 21执行后,显示出"Program terminated normally",返回到Debug,表示程序正常结束。(注意要用P命令执行int 21只需要记住就可以,在这里不必考虑为什么)

需要注意的是,在DOS中运行程序时,是command将程序加载入内存,所以程序运行结束后返回到command中,而在这里是Debug将程序加载入内存,所以程序运行结束后要返回到Debug中。

使用Q命令退出Debug,将返回到command中,因为Debug是由command加载运行的。在DOS中用"debug l.exe"运行Debug对l.exe进行跟踪时,程序加载的顺序是:command加载Debug,Debug加载l.exe。返回的顺序是:从l.exe中的程序返回到Debug,从Debug返回到command

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值