《汇编语言》第4章 第一个程序

前面我们都是在Debug中写一些指令,在Debug中执行。现在我们将开始编写完整的汇编语言程序,用编译和连接程序将它们编译连接成为可执行文件(如*.exe文件),在操作系统中运行。从这一章开始,我们将编写第一个这样的程序。

4.1 一个源程序从写到执行的过程
图4.1 描述了一个汇编语言程序从写出到最终执行的简要过程。具全说明如下。


第一步:编写汇编源程序。

使用文本编辑器(如Edit,记事本等),用汇编语言编写汇编源程序。这一步工作的结果是产生了一个存储源程序的文本文件。


第二步:对源程序进行编译连接。使用汇编语言编译程序对源程序文件中的源程序进行编译,产生目标文件;再用连接程序对目标文件进行连接,生成可在操作系统中直接运行的可执行文件。
可执行文件包含两部分内容。
⑴程序(从源程序中的汇编指令翻译过来的机器码)和数据(源程序中定义的数据)
⑵相关的描述信息(比如,程序有多大、要占用多少内存空间等)这一步工作的结果:产生了一个可在操作系统中运行的可执行文件。


第三步:执行可执行文件中的程序。在操作系统中,执行可执行文件中的程序。

操作系统依照可执行文件中的描述信息,将可执行文件中的机器码和数据加载入内存,并进行相关的初始化(比如设置CS:IP指向第一条要执行的指令),然后由CPU执行程序。
下面我们将通过学习一个简单的程序来经历图4.1中所描述的过程。

4.2 源程序
下面就是一段简单的汇编语言源程序。
程序 4.1
assume cs:codesg
codesg segment
    mov ax,0123H
    mov bx,0456H
    add ax,bx
    add ax,ax
    
    mov ax, 4c00H
    int 21H
codesg ends
end
下面对程序进行说明。
1.伪指令
在汇编语言源程序中,包含两种指令,一种是汇编指令,一种是伪指令。汇编指令是有对应的机器码的指令,可以被编译为机器指令,最终为CPU所执行。而伪指令没有对应的机器指令,最终不被CPU所执行。那么谁来执行伪指令呢?伪指令是由编译器来执行的指令,编译器根据伪指令来进行相关的编译工作。
你现在能看出来程序4.1中哪些指令是伪指令吗?
程序 4.1中出现了3种伪指令。
(1)XXX segment
        :
        :
        :
    XXX ends
segment和ends是一对成对使用的伪指令,这是在写可被编译器编译的汇编程序时,必须要用到的一对伪指令。segment和ends的功能是定义一个段,segment说明一个段开始,ends说明一个段结束。一个段必须有一个名称来标识,使用格式为:
段名 segment
        :
段名 ends
比如,程序4.1中的:
codesg segment ;定义一个段,段的名称为“codesg”,这个段从此开始
    :
codesg ends     ;名称为“codesg”的段到此结束
一个汇编程序是由多个段组成的,这些段被用来存放代码、数据或当作栈空间来使用。我们在前面的课程中所讲解的段的概念,在汇编源程序中得到了应用与体现,一个源程序中所有将被计算机所处理的信息:指令、数据、栈,被划分到了不同的段中。
一个有意义的汇编程序中至少要有一个段,这个段用来存放代码。
我们可以看到,程序4.1,在codesg segment和codesg ends之间写的汇编指令是这个段中存放的内容,这是一个代码段(其中还有我们不认识的指令,后面会进行讲解)。

(2)end
end是一个汇编程序的结束标记,编译器在编译汇编程序的过程中,如果碰到了伪指令end,就结束对源程序的编译。所以,在我们写程序的时候,如果程序写完了,要在结尾处加上伪指令end。否则,编译器在编译程序时,无法知道程序在何处结束。
注意,不要搞混了end和ends,ends是和segment成对使用的,标记一个段的结束,ends的含义可理解为“end segment”。我们这里讲的end的作用是标记整个程序的结束。
(3)assume
这条伪指令的含义为“假设”。它假设某一段寄存器和程序中的某一个用segment...ends定义的段相关联。通过assume说明这种关联,在需要的情况下,编译程序可以将段寄存器和某一个具体的段相联系。assume并不是一条非要深入理解不可的伪指令,以后我们编程时,记着用assume将有特定用途的段和相关的段寄存器关联起来即可。
比如,在程序4.1中,我们用codesg segment...codesg ends定义了一个名为codesg的段,在这个段中存放代码,所以这个段是一个代码段。在程序的开头,用assume cs:codesg将用作代码段的段codesg和CPU中的段寄存器cs联系起来。

2.源程序中的“程序”

用汇编语言写的源程序中,包括伪指令和汇编指令,我们编程的最终目的是让计算机完成一定的任务。源程序中的汇编指令组成了最终由计算机执行的程序,而源程序中的伪指令是由编译器来处理的,它们并不实现我们编程的最终目的。这里所说的程序就是指源程序中最终由计算机执行、处理的指令或数据。

注意,以后可以将源程序文件中的所有内容称为源程序,将源程序中最终由计算机执行、处理的指令或数据,称为程序。程序最先以汇编指令的形式存在源程序中,经编译、连接后转变为机器码,存储在可执行文件中,这个过程如图4.2所示。

 3. 标号

汇编源程序中,除了汇编指令和伪指令外,还有一些标号,比如“codesg”。一个标号指代了一个地址。比如codesg在segment的前面,作为一个段的名称,这个段的名称最终将被编译、连接程序处理为一个段的段地址。

4.程序的结构

我们现在讨论一下汇编程序的结构。在前3章中,我们都是通过直接在Debug中写入汇编指令来写汇编程序,对于十简短的程序这样做的确方便。可对于大一些的程序,就不能如此了。我们需要写出能让编译器进行编译的源程序,这样的源程序应该具备起码的结构。

源程序是由一些段构成的。我们可以在这些段中存放代码、数据、或将某个段当作栈空间。我们现在来一步步地完成一个小程序,从这个过程中体会一下汇编程序中的基本要素和汇编程序的简单框架。

任务:编程运行2^3。源程序应该怎样来写呢?

(1)我们要定义一个段,名称为abc.
abc segment
    :
abd ends

(2)在这个段中写入汇编指令,来实现我们的任务。

abc segment
    mov ax,2
    add ax,ax
    add ax,ax
abc ends
(3)然后,要指出程序在何处结束
abc segment
    mov ax,2
    add ax,ax
    add ax,ax
abc ends
ends
(4)abc被当作代码段来用,所以,应该将abc和cs联系起来。(当然,对于这个程序,也不是非这样做不可。)
assume cs:abc
abc segment
    mov ax,2
    add ax,ax
    add ax,ax
abc ends
ends
最终写成的程序如程序4.2所示。
程序4.2

assume cs:abc
abc segment
    mov ax,2
    add ax,ax
    add ax,ax
abc ends
ends

5.程序返回
我们的程序最先以汇编指令的形式存在源程序中,经编译、连接后转变为机器码,存储在可执行文件中,那么,它怎样得到运行呢?
下面,我们在DOS(一个单任务操作 系统)的基础上,简单地讨论一下这个问题。
一个程序P2在可执行文件中,则必须有一个正在运行的程序P1,将P2从可执行文件中加载入内存后,将CPU的控制权交给P2,P2才能得以运行。P2开始运行后,P1暂停运行。
而当P2运行完毕后,应该将CPU的控制权交还给使它得以运行的程序P1,此后,P1继续运行。
现在,我们知道,一个程序结束后,将CPU的控制权交给使它得以运行的程序,我们称这个过程为:程序返回。那么,如何返回呢?应该在程序的末尾添加返回的程序段。
我们回过头来,看一下程序4.1中的两条指令:
mov ax,4c00H
int 21H
这两条指令所实现的功能就是程序返回。
在目前阶段,我们不必去理解int 21H指令的含义,和为什么要在这条指令的前面加上指令mov ax,4C00H。我们只要知道,在程序的末尾使用这两条指令就可以实现程序返回。
到目前为止,我们好像已经遇到了几个和结束相关的内容:段结束、程序结束、程序返回。表4.1展示了它们的区别。

 6. 语法错误和逻辑错误
可见,程序4.2在运行时会引发一些问题,因为程序没有返回。当然,这个错误在编译的时候是不能表现出来的,也就是说,程序4.2对于编译器来说是正角的程序。
一般说来,程序在编译时被编译器发现的错误是语法错误,比如将程序4.2写成如下这样就会发生语法错误:
aume cs:abc
abc segment
    mov ax,2
    add ax,ax
    add ax,ax
end
显然,程序中有编译器不能识别的aume,而且编译器在编译的过程中也无法知道abc段到何处结束。
在源程序编译后,在运行时发生的错误是逻辑错误。语法错误容易发现,也容易解决。而逻辑错误通常不容易被发现。不过,程序4.2中的错误却显而易见,我们将它改正过来:
assume cs:abc
abc segment
    mov ax,2
    add ax,ax
    add ax,ax
    
    mov ax, 4c00H
    int 21H

abc ends
end

4.3 编辑源程序
可以用任意的文本编辑器来编辑源程序,只要最终将其存储为纯文本文件即可。在这里,使用记录本进行编辑

 将程序保存为文件 example.asm后,退出,结束对源程序的编辑。

4.4 编译
在4.3节中,完成对源程序的编辑后,得到一个源程序文件d:\debug\chapter04\example1.asm。可以对其进地编译,生成包含机器代码的目标文件。
这里采用masm.exe汇编编译器,设置好编译器的环境变量,按照下面的过程来进行源程序的编译,以d:\debug\chapter04\example1.asm为例。
(1)进入DOS方式,运行masm.exe,如图4.5所示。

图4.5中,运行masm后,首先显示出一些版本信息,然后提示输入将要被编译的源程序文件的名称。注意,“[.ASM]”提示我们,默认的文件扩展名是asm,比如,要编译的源程序文件名是“example1.asm”,只要在这里输入“example1”即可。可如果源程序文件不是以asm为扩展名的话,就要输入它的全名。比如源程序文件名为“example1.txt”,就要输入全名。
在输入源程序文件名的时候一定要指明它所在的路径。如果文件就在当前路径下,只输入文件名即可,可如果文件在其他的目录中,则要输入路径,比如,要编译的文件example.asm在“d:\debug\chapter4”下,则要输入“d:\debug\chapter4\example1.asm”(由于我这里设置d:\debug为根目录,所以这里输入的是c:\chapter4\example1.asm)。
这里,我们要编译的文件在d:\debug\chapter4目录下,所以此处输入“c:\chapter4\example1.asm

(2)输入要编译的源程序文件名后,按Enter键,屏幕显示如图4.6所示。

图4.6中,在输入源程序文件名后,程序继续提示我们输入要编译出的目标文件的名称,目标文件是我们对一个源程序时行编译要得到的最终结果。注意屏幕上的显示:

“[example1.OBJ]”,因为我们已经输入了源程序文件名为example1.asm,则编译程序默认要输出的目标文件名为example1.OBJ所以可以不必再另行指定文件名。直接按Enter键,编译程序将在当前的目录下,生成example1.OBJ文件。

(3)确定了目标文件的名称后,屏幕显示如图4.7所示。

 图4.7中,编译程序提示输入列表文件的名称,这个文件是编译器将源程序编译为目标文件的过程中产生的是间结果。可以让编译器不生成这个文件,直接按Enter键即可。
(4)忽略了列表文件的生成后,屏幕显示如图4.8所示。

 图4.8中,编译程序提示输入交叉引用文件的名称,这个文件同列表文件一样,是编译器将源程序编译为目标文件过程中产生的中间结果。可以让编译器不生成这个文件,直接按Enter键即可。
(5)忽略了交叉引用文件的生成后,屏幕显示如图4.9所示。

 图4.9中,对源程序的编译结束,编译器输出的最后两行告诉我们这个源程序没有警告错误和必须要改正的错误。
上面我们通过对C盘要目录下的chapter4\example1.asm进行编译的过程,展示了使用汇编编译器对源程序进行编译的方法。按照上面的过程进行了编译之后,在编译器masm.exe运行的目录,将出现一个新的文件:example1.obj,这是对源程序example1.asm进行编译所得到的结果。当然,如果编译的过程中出现错误,那么将得不到目录文件。一般来说,有两类错误使我们得不到所期望的目标文件:
(1)程序中有“Severe Errors”;
(2)找不到所给出的源程序文件。
注意,在编译的过程中,我们提供了一个输入,即源程序文件。最多可以得到3个输出:目录文件(.obj)、列表文件(.lst)、交叉引用文件(.crf),这3个输出文件中,目标文件是我们最终要得到的结果,而另外两个只是中间结果,可以让编译器忽略对它们的生成。在汇编课程中,我们不讨论这两类文件。

4.5 连接
在对源程序进行编译得到目标文件后,我们需要对目标文件进行连接,从而得到可执行文件。接续上一节的过程,我们已经对d:\debug\chapter4\example1.asm进行编译得到d:\debug\example1.obj,现在再将d:\debug\example1.obj连接为d:\debug\example1.exe.
我们使用微软的Overlay Linker3.6连接器,文件名为link.exe,假设连接器在d:\debug目录下,可以按照下面的过程来进行程序的连接,以d:\debug\example1.obj为例。
(1)进入DOS方式,进入d:\debug目录,运行link.exe,如下图所示。

在上图中,运行link后,首先显示出一些版本信息,然后提示输入将要被连接的目标文件的名称。注意,“[.OBJ]”提示我们,默认的文件扩展名为obj,比如要连接的目标文件名是“example1.obj”,只要在这里输入“example1”即可。可如果文件不是以obj为扩展名,就要输入它的全名。比如目标文件名为“example.bin”,就要输入全名。
(2)输入要连接的目标文件名后,按Enter键,使用连接程序设定的可执行文件名。
(3)确定了可执行文件的名称后,连接程序提示输入映像文件的名称,这里直接按Enter,不生成这个中间文件。
(4)忽略映像文件后,提示输入库文件,这里忽略库文件名,直接按Enter键即可。
(5)忽略了库文件的连接后,按Enter键 ,连接完成。界面提示一个警告“没有栈段”,这里先不理会这个错误。

 连接的作用有以下几个
(1)当源程序很大时,可以将它分为多个源程序文件来编译,每个源程序编译成为目标文件后,再用连接程序将它们连接到一起,生成一个可执行文件。
(2)程序中调用了某个库文件中的子程序,需要将这个库文件和该程序生成的目标文件连接到一起,生成一个可执行文件。
(3)一个源程序编译后,很明显到了存有机器码的目标文件,目标文件中的有些内容还不能直接用来生成可执行文件,连接程序将这些内容处理为最终的可执行信息。所以,在只有一个源程序文件,而又不需要调用 某个库中的子程序的情况下,也必须用连接程序对目标文件进行处理,生成可执行文件。
注意,对于连接的过程,可执行文件是我们要得到的最终结果。

4.6 以简化的方式进行编译和连接
前面的内容介绍了使用masm和link进行编译和连接,在操作的过程中,我们省掉了产生的中间文件,现在我们可以用一种较为简捷的方式进行编译、连接。

masm后直接输文件名然后输入“;”号(这个很重要,不会按原来的步骤进行了),即可完成编译,忽略中间文件。如下图所示

 使用link进行连接,输入文件名后,同样要加一个“;”号,如下面所示。

4.7 example1.exe的执行
上面我们已经生成了可执行程序,现在我们执行一下。


从上图看,程序运行后,没有任何结果,就好像程序没有运行一样,其他程序运行了,只是不能从屏幕上看到运行结果,因为它只对寄存器进行操作,后续学习可以看到输出信息的程序。

 4.8 谁将可执行文件中的程序装载进入内丰并使用它运行?
在前面介绍过,在DOS中,可执行文件中的程序P1若要运行,必须有一个正在运行的程序P2,将P1从可执行文件中加载入内存,将CPU的控制权交给它,P1才能运行;当p1运行完毕后,应该将CPU的控制权交给使用它的以运行的程序P2。
问题4.1
此时,有一个正在运行的程序将example1.exe中的程序加载入内存,这个正在运行的程序是什么?它将程序加载入内存后,如何使程序得以运行?
问题 4.2
程序运行结束后,返回到哪里?
如果你对DOS有比较深入的了解,那么,很容易回答问题4.1、问题4.2中所提出的问题。如果没爱种了解,可以先阅读下面的内容。

                                                     操作系统的外壳
操作系统是由多个功能模块组成的庞大、复杂的软件系统。任何通用的操作系统,都要提供一个称为shell(外壳)的程序,用户(操作人员)使用这个程序来操作计算机系统进行工作。
DOS中有一个程序command.com,这个程序在DOS中称为命令解释器,也就是DOS系统的shell。
DOS启动时,先完成其他重要的初始化工作,然后运行command.com,command.com运行后,执行完其他的相关任务后,在屏幕上显示出由当前盘符和当前路径组成的提示符,比如:“c:\”或“c:\windows”等,然后等待用户的输入。
用户可以输入所要执行的命令,比如,cd,dir,type等,这些命令由command执行,command执行完这些命令后,再次显示由当前盘符和当前路径组成的提示符,等待用户的输入。
如果用户要执行一个程序,则输入该程序的可执行文件的名称,command首先根据文件名找到可执行文件,然后将这个可执行文件中的程序加载入内存,设置CS:IP指向程序的入口。此后,command暂停运行,CPU运行程序。程序运行结束后,返回到command中,command再次显示由当前盘符和当前路径组成的提示符,等待用户的输入。

现在回答问题4.1和4.2中所提出的问题。
(1)在DOS中直接执行example1.exe,是正在运行的command,将example1.exe中的程序加载入内存;
(2)command设置CPU的CS:IP指向程序的第一条指令(即程序的入口),从而使用程序得到运行;
(3)程序运行结束后,返回以command中,CPU继续运行command。


                                   汇编程序从写出到执行的过程
到此,完成了一个汇编程序从写出到执行的全部过程。我们经历了这样一个历程:
编译 -> 1.asm -> 编译 -> 1.obj -> 连接 -> 1.exe -> 加载 -> 内存中的程序 -> 运行
(Edit)                (masm)               (link)                (command)                        (CPU)

4.9 程序执行过程的跟踪
本节介绍用debug来跟踪一个程序的运行过程,下面以可执行文件example1.exe为例,讲解如何用debug对程序的执行过程进行跟踪。

首先使用debug EXAMPLE1.EXE将exe加载入内存,进行相关的初始化后设置CS:IP指向的入口。通过r命令 查看各个寄存器的设置情况。

可以看到,debug将程序从可执行文件加载入内存后,CX中存放的是程序的长度。example1.exe中程序的机器码共有15个字节,则example1.exe加载后,CX中的内容为000FH。 

DOS系统中。exe文件中的程序加载过程如下:

 

注意,有一步称为重定位的工作在图4.20中没有介绍,因为这个问题和操作系统的关系较大,这里不作讨论。
那么,我们的程序被装入内存的什么地方?我们如何得知?从图4.20中我们知道以下的信息。
(1)程序加载后,ds中存放着程序所在内存内的段地址,这个内存区的偏移地址为0,则程序所在的内存区的地址为ds:0。
(2)这个内存区的前256个字节中存放的是PSP(程序段前缀),DOS用来和程序进行通信 。从256字节处向后的空间存放的是程序。
所以,从ds中可以得到PSP的段地址SA,PSP的偏移地址为0,则物理地址为SA×16+0+256 = SA×16 + 16×16 + 0 = (SA+16)×16+0
可用段地址和偏移地址表示为SA+10H:0。
现在,我们看一下图4.19中DS的值,DS=075A,则PSP的地址为075A:0,程序的地址为076A:0(即075A+10:0)。
图4.19中,CS=076A,IP=0000,CS:IP指向程序的第一条指令。注意,源程序中的指令是mov ax,0123H,在debug中记为mov ax,0123, 这是因为debug默认所有数据都用十六进制表示。
可以用u命令看一下其他指令,如图4.21所示。

 可以看到,从076A:0000~076A:000E都是程序的机器码。
现在,我们可以开始跟踪了,用t命令单步执行程序中的每一条指令,并观察每条指令的执行结果,到了int 21,我们要用p命令执行,如图4.22所示。

 

图4.22中,int 21执行后,显示出“Program terminated normally”,返回到debug中。表示程序正常结束。注意,要使用p命令执行int 21。这里先不必考虑是什么什么,记住这一点就可以了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值