实验内容
此次实验的基本内容是:
-
阅读《Linux 内核完全注释》的第 6 章,对计算机和 Linux 0.11 的引导过程进行初步的了解;
-
按照下面的要求改写 0.11 的引导程序 bootsect.s
-
有兴趣同学可以做做进入保护模式前的设置程序 setup.s。
改写 bootsect.s
主要完成如下功能:
-
bootsect.s 能在屏幕上打印一段提示信息“XXX is booting...”,其中 XXX 是你给自己的操作系统起的名字,例如 LZJos、Sunix 等(可以上论坛上秀秀谁的 OS 名字最帅,也可以显示一个特色 logo,以表示自己操作系统的与众不同。)
改写 setup.s
主要完成如下功能:
-
bootsect.s 能完成 setup.s 的载入,并跳转到 setup.s 开始地址执行。而 setup.s 向屏幕输出一行"Now we are in SETUP"。
-
setup.s 能获取至少一个基本的硬件参数(如内存参数、显卡参数、硬盘参数等),将其存放在内存的特定地址,并输出到屏幕上。
-
setup.s 不再加载 Linux 内核,保持上述信息显示在屏幕上即可。
具体过程
相关代码文件
Linux 0.11 文件夹中的 boot/bootsect.s
、boot/setup.s
和 tools/build.c
是本实验会涉及到的源文件
引导程序的运行环境
引导程序由 BIOS 加载并运行。它活动时,操作系统还不存在,整台计算机的所有资源都由它掌控,而能利用的功能只有 BIOS 中断调用。实验中主要使用 BIOS 0x10 和 0x13 中断
完成 bootsect.s 的屏幕输出功能
entry _start _start: mov ah,#0x03 xor bh,bh int 0x10 mov cx,#21 mov bx,#0x0007 mov bp,#msg1 mov ax,#0x07c0 mov es,ax mov ax,#0x1301 int 0x10 inf_loop: jmp inf_loop msg1: .byte 13,10 .ascii "Hello,ZMX`s OS!" .byte 13,10,13,10 .org 510 boot_flag: .word 0xAA55
这里需要修改的是字符串长度,即用需要输出的字符串长度替换 mov cx,#24
中的 24。要注意:除了我们设置的字符串 msg1 之外,还有三个换行 + 回车,一共是 6 个字符。比如这里 Hello,ZMX`s OS!的长度是 15,加上 6 后是 21,所以代码应该修改为 mov cx,#21。
将 .org 508
修改为 .org 510
,是因为这里不需要 root_dev: .word ROOT_DEV
,为了保证 boot_flag
一定在最后两个字节,所以要修改 .org
编译和运行
进入 ~/oslab/linux-0.11/boot/ 目录。
as86 -0 -a -o bootsect.o bootsect.s ld86 -0 -s -o bootsect bootsect.o
表示生成 8086 的 16 位目标程序,-a
表示生成与 GNU as 和 ld 部分兼容的代码,-s
告诉链接器 ld86 去除最后生成的可执行文件中的符号信息。
其中 bootsect.o 是中间文件。bootsect 是编译、链接后的目标文件。
可以看到bootsect 的文件大小是 544 字节,而引导程序必须要正好占用一个磁盘扇区,即 512 个字节。造成多了 32 个字节的原因是 ld86 产生的是 Minix 可执行文件格式,这样的可执行文件除了文本段、数据段等部分以外,还包括一个 Minix 可执行文件头部,它的结构如下:
struct exec { unsigned char a_magic[2]; //执行文件魔数 unsigned char a_flags; unsigned char a_cpu; //CPU标识号 unsigned char a_hdrlen; //头部长度,32字节或48字节 unsigned char a_unused; unsigned short a_version; long a_text; long a_data; long a_bss; //代码段长度、数据段长度、堆长度 long a_entry; //执行入口地址 long a_total; //分配的内存总量 long a_syms; //符号表大小 };
6 char(6 字节)+ 1 short(2 字节) + 6 long(24 字节)= 32,正好是 32 个字节,去掉这 32 个字节后就可以放入引导扇区了(这是 tools/build.c
的用途之一)。
对于上面的 Minix 可执行文件,其 a_magic[0]=0x01,a_magic[1]=0x03,a_flags=0x10(可执行文件),a_cpu=0x04(表示 Intel i8086/8088,如果是 0x17 则表示 Sun 公司的 SPARC),所以 bootsect 文件的头几个字节应该是 01 03 10 04。为了验证一下,Ubuntu 下用命令“hexdump -C bootsect”可以看到:
使用dd bs=1 if=bootsect of=Image skip=32
命令,生成Image文件
cp ./Image ../Image
将刚刚生成的 Image 复制到 linux-0.11 目录下
执行 oslab 目录中的 run 脚本../../run
可以看到,我们的字符被成功打印了出来
bootsect.s 读入 setup.s
编写bootsect.s
SETUPLEN=2 SETUPSEG=0x07e0 entry _start _start: mov ah,#0x03 xor bh,bh int 0x10 mov cx,#21 mov bx,#0x0007 mov bp,#msg1 mov ax,#0x07c0 mov es,ax mov ax,#0x1301 int 0x10 load_setup: mov dx,#0x0000 ;设置驱动器和磁头(drive 0, head 0): 软盘 0 磁头 mov cx,#0x0002 ;设置扇区号和磁道(sector 2, track 0): 0 磁头、0 磁道、2 扇区 mov bx,#0x0200 ;设置读入的内存地址:BOOTSEG+address = 512,偏移512字节 mov ax,#0x0200+SETUPLEN ;设置读入的扇区个数 int 0x13 ;应用 0x13 号 BIOS 中断读入 2 个 setup.s扇区 jnc ok_load_setup ;读入成功,跳转到 ok_load_setup: ok - continue mov dx,#0x0000 ;软驱、软盘有问题才会执行到这里 mov ax,#0x0000 int 0x13 jmp load_setup ok_load_setup: jmpi 0,SETUPSEG msg1: .byte 13,10 .ascii "Hello,ZMX`s OS!" .byte 13,10,13,10 .org 510 boot_flag: .word 0xAA55
setup.s
entry _start _start: mov ah,#0x03 xor bh,bh int 0x10 mov cx,#25 mov bx,#0x0007 mov bp,#msg2 mov ax,cs mov es,ax mov ax,#0x1301 int 0x10 inf_loop: jmp inf_loop msg2: .byte 13,10 .ascii "NOW we are in SETUP" .byte 13,10,13,10 .org 510 boot_flag: .word 0xAA55
现在有两个文件都要编译、链接。一个个手工编译,效率低下,所以借助 Makefile 是最佳方式
进入 linux-0.11 目录后,make BootImage
这是因为 make 根据 Makefile 的指引执行了 tools/build.c
,它是为生成整个内核的镜像文件而设计的,没考虑我们只需要 bootsect.s
和 setup.s
的情况。
修改build.c
将相关内容注释掉
make BootImage
编译
运行
setup.s 获取基本硬件参数
setup.s 将获得硬件参数放在内存的 0x90000 处。原版 setup.s 中已经完成了光标位置、内存大小、显存大小、显卡参数、第一和第二硬盘参数的保存。
用 ah=#0x03
调用 0x10
中断可以读出光标的位置,用 ah=#0x88
调用 0x15
中断可以读出内存的大小。有些硬件参数的获取要稍微复杂一些,如磁盘参数表。在 PC 机中 BIOS 设定的中断向量表中 int 0x41
的中断向量位置(4*0x41 = 0x0000:0x0104)存放的并不是中断程序的地址,而是第一个硬盘的基本参数表。第二个硬盘的基本参数表入口地址存于 int 0x46
中断向量位置处。每个硬盘参数表有 16 个字节大小。下表给出了硬盘基本参数表的内容:
下面是将硬件参数取出来放在内存 0x90000 的关键代码
mov ax,#INITSEG ! 设置 ds = 0x9000 mov ds,ax mov ah,#0x03 ! 读入光标位置 xor bh,bh ! 调用 0x10 中断 int 0x10 ! 将光标位置写入 0x90000. mov [0],dx ! 读入内存大小位置 mov ah,#0x88 int 0x15 mov [2],ax ! 从 0x41 处拷贝 16 个字节(磁盘参数表) mov ax,#0x0000 mov ds,ax lds si,[4*0x41] mov ax,#INITSEG mov es,ax mov di,#0x0004 mov cx,#0x10 ! 重复16次 rep movsb
现在已经将硬件参数取出来放在了 0x90000 处,接下来的工作是将这些参数显示在屏幕上。这些参数都是一些无符号整数,所以需要做的主要工作是用汇编程序在屏幕上将这些整数显示出来。
以十六进制方式显示比较简单。这是因为十六进制与二进制有很好的对应关系(每 4 位二进制数和 1 位十六进制数存在一一对应关系),显示时只需将原二进制数每 4 位划成一组,按组求对应的 ASCII 码送显示器即可。ASCII 码与十六进制数字的对应关系为:0x30 ~ 0x39 对应数字 0 ~ 9,0x41 ~ 0x46 对应数字 a ~ f。从数字 9 到 a,其 ASCII 码间隔了 7h,这一点在转换时要特别注意。为使一个十六进制数能按高位到低位依次显示,实际编程中,需对 bx 中的数每次循环左移一组(4 位二进制),然后屏蔽掉当前高 12 位,对当前余下的 4 位(即 1 位十六进制数)求其 ASCII 码,要判断它是 0 ~ 9 还是 a ~ f,是前者则加 0x30 得对应的 ASCII 码,后者则要加 0x37 才行,最后送显示器输出。以上步骤重复 4 次,就可以完成 bx 中数以 4 位十六进制的形式显示出来。
下面是完成显示 16 进制数的汇编语言程序的关键代码,其中用到的 BIOS 中断为 INT 0x10,功能号 0x0E(显示一个字符),即 AH=0x0E,AL=要显示字符的 ASCII 码。
! 以 16 进制方式打印栈顶的16位数 print_hex: ! 4 个十六进制数字 mov cx,#4 ! 将(bp)所指的值放入 dx 中,如果 bp 是指向栈顶的话 mov dx,(bp) print_digit: ! 循环以使低 4 比特用上 !! 取 dx 的高 4 比特移到低 4 比特处。 rol dx,#4 ! ah = 请求的功能值,al = 半字节(4 个比特)掩码。 mov ax,#0xe0f ! 取 dl 的低 4 比特值。 and al,dl ! 给 al 数字加上十六进制 0x30 add al,#0x30 cmp al,#0x3a ! 是一个不大于十的数字 jl outp ! 是a~f,要多加 7 add al,#0x07 outp: int 0x10 loop print_digit ret ! 这里用到了一个 loop 指令; ! 每次执行 loop 指令,cx 减 1,然后判断 cx 是否等于 0。 ! 如果不为 0 则转移到 loop 指令后的标号处,实现循环; ! 如果为0顺序执行。 ! ! 另外还有一个非常相似的指令:rep 指令, ! 每次执行 rep 指令,cx 减 1,然后判断 cx 是否等于 0。 ! 如果不为 0 则继续执行 rep 指令后的串操作指令,直到 cx 为 0,实现重复。 ! 打印回车换行 print_nl: ! CR mov ax,#0xe0d int 0x10 ! LF mov al,#0xa int 0x10 ret
最终代码
INITSEG = 0x9000 entry _start _start: ! Print "NOW we are in SETUP" mov ah,#0x03 xor bh,bh int 0x10 mov cx,#25 mov bx,#0x0007 mov bp,#msg2 mov ax,cs mov es,ax mov ax,#0x1301 int 0x10 mov ax,cs mov es,ax ! init ss:sp mov ax,#INITSEG mov ss,ax mov sp,#0xFF00 ! Get Params mov ax,#INITSEG mov ds,ax mov ah,#0x03 xor bh,bh int 0x10 mov [0],dx mov ah,#0x88 int 0x15 mov [2],ax mov ax,#0x0000 mov ds,ax lds si,[4*0x41] mov ax,#INITSEG mov es,ax mov di,#0x0004 mov cx,#0x10 rep movsb ! Be Ready to Print mov ax,cs mov es,ax mov ax,#INITSEG mov ds,ax ! Cursor Position mov ah,#0x03 xor bh,bh int 0x10 mov cx,#18 mov bx,#0x0007 mov bp,#msg_cursor mov ax,#0x1301 int 0x10 mov dx,[0] call print_hex ! Memory Size mov ah,#0x03 xor bh,bh int 0x10 mov cx,#14 mov bx,#0x0007 mov bp,#msg_memory mov ax,#0x1301 int 0x10 mov dx,[2] call print_hex ! Add KB mov ah,#0x03 xor bh,bh int 0x10 mov cx,#2 mov bx,#0x0007 mov bp,#msg_kb mov ax,#0x1301 int 0x10 ! Cyles mov ah,#0x03 xor bh,bh int 0x10 mov cx,#7 mov bx,#0x0007 mov bp,#msg_cyles mov ax,#0x1301 int 0x10 mov dx,[4] call print_hex ! Heads mov ah,#0x03 xor bh,bh int 0x10 mov cx,#8 mov bx,#0x0007 mov bp,#msg_heads mov ax,#0x1301 int 0x10 mov dx,[6] call print_hex ! Secotrs mov ah,#0x03 xor bh,bh int 0x10 mov cx,#10 mov bx,#0x0007 mov bp,#msg_sectors mov ax,#0x1301 int 0x10 mov dx,[12] call print_hex inf_loop: jmp inf_loop print_hex: mov cx,#4 print_digit: rol dx,#4 mov ax,#0xe0f and al,dl add al,#0x30 cmp al,#0x3a jl outp add al,#0x07 outp: int 0x10 loop print_digit ret print_nl: mov ax,#0xe0d ! CR int 0x10 mov al,#0xa ! LF int 0x10 ret msg2: .byte 13,10 .ascii "NOW we are in SETUP" .byte 13,10,13,10 msg_cursor: .byte 13,10 .ascii "Cursor position:" msg_memory: .byte 13,10 .ascii "Memory Size:" msg_cyles: .byte 13,10 .ascii "Cyls:" msg_heads: .byte 13,10 .ascii "Heads:" msg_sectors: .byte 13,10 .ascii "Sectors:" msg_kb: .ascii "KB" .org 510 boot_flag: .word 0xAA55
可以看到,一些参数已经被获取到并打印出来
cat bochs/bochsrc.bxrc
可以看到内容和打印出来的相吻合
问题回答
有时,继承传统意味着别手蹩脚。x86 计算机为了向下兼容,导致启动过程比较复杂。请找出 x86 计算机启动过程中,被硬件强制,软件必须遵守的两个“多此一举”的步骤(多找几个也无妨),说说它们为什么多此一举,并设计更简洁的替代方案。
1、实模式切换到保护模式:
在启动过程中,x86 CPU一开始处于实模式下,这是为了向后兼容早期的x86处理器。然而,实模式是一个较为简单的模式,没有保护机制,因此容易受到恶意软件的攻击。简洁的替代方案:直接启动到保护模式。现代操作系统和应用程序都依赖于保护模式的多任务和内存保护功能,因此从一开始就进入保护模式可以提高系统的安全性和性能。
2、为了兼容性,保留了16字节的汇编及汇编格式,以及相应的寄存器。x86架构有一些不再使用的段寄存器,如CS、DS、ES、SS等。在保护模式下,这些寄存器的作用不同于实模式,并且一些段寄存器的设置可能不再重要,但它们仍然存在,以保持与早期软件的兼容性。
3、实模式启动:x86架构的计算机在启动时通常会首先进入实模式,这是一种非常早期的CPU操作模式。这是为了向后兼容早期的x86处理器,但实模式不提供内存保护和多任务支持,因此在现代操作系统中通常不再需要。