转自:http://blog.csdn.net/adazone/article/details/39342091
一、简介
本文将从BootLoader的概念、BootLoader的主要任务、BootLoader的框架结构以及BootLoader的安装等四个方面来讨论嵌入式系统的BootLoader。
引导加载程序。包括固化在固件(firmware)中的boot代码(可选),和BootLoader两大部分。
Linux内核。特定于嵌入式板子的定制内核以及内核的启动参数。
引导加载程序是系统加电后运行的第一段软件代码。
回忆一下PC的体系结构我们可以知道,PC机中的引导加载程序由BIOS(其本质就是一段固件程序)和位于硬盘MBR中的OSBoot Loader(比如,LILO和GRUB等)一起组成。BIOS在完成硬件检测和资源分配后,将硬盘MBR中的BootLoader读到系统的RAM中,然后将控制权交给OSBoot Loader。BootLoader的主要运行任务就是将内核映象从硬盘上读到RAM中,然后跳转到内核的入口点去运行,也即开始启动操作系统。而在嵌入式系统中,通常并没有像BIOS那样的固件程序(注,有的嵌入式CPU也会内嵌一段短小的启动程序),因此整个系统的加载启动任务就完全由BootLoader来完成。比如在一个基于ARM7TDMIcore的嵌入式系统中,系统在上电或复位时通常都从地址0x00000000处开始执行,而在这个地址处安排的通常就是系统的BootLoader程序。
二、BootLoader的概念
简单地说,BootLoader就是在操作系统内核运行之前运行的一段小程序。通过这段小程序,我们可以初始化硬件设备、建立内存空间的映射图,从而将系统的软硬件环境带到一个合适的状态,以便为最终调用操作系统内核准备好正确的环境。
1.Boot Loader所支持的CPU和嵌入式板
每种不同的CPU体系结构都有不同的BootLoader。有些BootLoader也支持多种体系结构的CPU,比如U-Boot就同时支持ARM体系结构和MIPS体系结构。除了依赖于CPU的体系结构外,BootLoader实际上也依赖于具体的嵌入式板级设备的配置。这也就是说,对于两块不同的嵌入式板而言,即使它们是基于同一种CPU而构建的,要想让运行在一块板子上的BootLoader程序也能运行在另一块板子上,通常也都需要修改BootLoader的源程序。
2.Boot Loader的安装媒介(InstallationMedium)
系统加电或复位后,所有的CPU通常都从某个由CPU制造商预先安排的地址上取指令。比如,基于ARM7TDMIcore的CPU在复位时通常都从地址0x00000000取它的第一条指令。而基于CPU构建的嵌入式系统通常都有某种类型的固态存储设备(比如:ROM、EEPROM或FLASH等)被映射到这个预先安排的地址上。因此在系统加电后,CPU将首先执行BootLoader程序。
3.用来控制BootLoader的设备或机制
主机和目标机之间一般通过串口建立连接,BootLoader软件在执行时通常会通过串口来进行I/O,比如:输出打印信息到串口,从串口读取用户控制字符等。
4.Boot Loader的启动过程
BootLoader的启动过程是单阶段(SingleStage)还是多阶段(Multi-Stage)通常多阶段的BootLoader能提供更为复杂的功能,以及更好的可移植性。从固态存储设备上启动的BootLoader大多都是2阶段的启动过程,也即启动过程可以分为stage1和stage2两部分。而至于在stage1和stage2具体完成哪些任务将在下面讨论。
5.BootLoader与主机之间进行文件传输所用的通信设备及协议
最常见的情况就是,目标机上的BootLoader通过串口与主机之间进行文件传输,传输协议通常是xmodem/ymodem/zmodem协议中的一种。但是,串口传输的速度是有限的,因此通过以太网连接并借助TFTP协议来下载文件是个更好的选择。在讨论了BootLoader的上述概念后,下面我们来具体看看BootLoader的应该完成哪些任务。
三.Boot Loader 的主要任务与典型结构框架
在继续本节的讨论之前,首先我们做一个假定,那就是:假定内核映像与根文件系统映像都被加载到RAM中运行。之所以提出这样一个假设前提是因为,在嵌入式系统中内核映像与根文件系统映像也可以直接在ROM或Flash这样的固态存储设备中直接运行。但这种做法无疑是以运行速度的牺牲为代价的。
从操作系统的角度看,BootLoader的总目标就是正确地调用内核来执行。另外,由于BootLoader的实现依赖于CPU的体系结构,因此大多数BootLoader都分为stage1和stage2两大部分。依赖于CPU体系结构的代码,比如设备初始化代码等,通常都放在stage1中,而且通常都用汇编语言来实现,以达到短小精悍的目的。
而stage2则通常用C语言来实现,这样可以实现给复杂的功能,而且代码会具有更好的可读性和可移植性。
BootLoader的stage1通常包括以下步骤(以执行的先后顺序):
硬件设备初始化。
为加载BootLoader的stage2准备RAM空间。
拷贝BootLoader的stage2到RAM空间中。
设置好堆栈。
跳转到stage2的C入口点。
BootLoader的stage2通常包括以下步骤(以执行的先后顺序):
初始化本阶段要使用到的硬件设备。
检测系统内存映射(memorymap)。
将kernel映像和根文件系统映像从flash上读到RAM空间中。
为内核设置启动参数。
调用内核。
3.1Boot Loader的stage1
3.1.1基本的硬件初始化
这是BootLoader一开始就执行的操作,其目的是为stage2的执行以及随后的kernel的执行准备好一些基本的硬件环境。它通常包括以下步骤(以执行的先后顺序):
屏蔽所有的中断。为中断提供服务通常是OS设备驱动程序的责任,因此在BootLoader的执行全过程中可以不必响 应任何中断。中断屏蔽可以通过写CPU的中断屏蔽寄存器或状态寄存器(比如ARM的CPSR寄存器)来完成。
设置CPU的速度和时钟频率。
RAM初始化。包括正确地设置系统的内存控制器的功能寄存器以及各内存库控制寄存器等。 初始化LED。典型地,通过GPIO来驱动LED,其目的是表明系统的状态是OK还是Error。如果板子上没有LED,那么也可以通过初始化UART向串口打印BootLoader的Logo字符信息来完成这一点。
关闭CPU内部指令/数据cache。
3.1.2为加载stage2准备RAM空间
为了获得更快的执行速度,通常把stage2加载到RAM空间中来执行,因此必须为加载BootLoader的stage2准备好一段可用的RAM空间范围。由于stage2通常是C语言执行代码,因此在考虑空间大小时,除了stage2可执行映象的大小外,还必须把堆栈空间也考虑进来。此外,空间大小最好是memorypage大小(通常是4KB)的倍数。一般而言,1M的RAM空间已经足够了。具体的地址范围可以任意安排,比如blob就将它的stage2可执行映像安排到从系统RAM起始地址0xc0200000开始的1M空间内执行。
但是,将stage2安排到整个RAM空间的最顶1MB(也即(RamEnd-1MB)- RamEnd)是一种值得推荐的方法。
为了后面的叙述方便,这里把所安排的RAM空间范围的大小记为:stage2_size(字节),把起始地址和终止地址分别记为:stage2_start和stage2_end(这两个地址均以4字节边界对齐)。因此:stage2_end=stage2_start+stage2_size
另外,还必须确保所安排的地址范围的的确确是可读写的RAM空间,因此,必须对你所安排的地址范围进行测试。
具体的测试方法可以采用类似于blob的方法,也即:以memorypage为被测试单位,测试每个memorypage开始的两个字是否是可读写的。为了后面叙述的方便,我们记这个检测算法为:test_mempage,其具体步骤如下:
先保存memorypage一开始两个字的内容。
向这两个字中写入任意的数字。比如:向第一个字写入0x55,第2个字写入0xaa。
然后,立即将这两个字的内容读回。显然,我们读到的内容应该分别是0x55和0xaa。如果不是,则说明这个memorypage所占据的地址范围不是一段有效的RAM空间。
再向这两个字中写入任意的数字。比如:向第一个字写入0xaa,第2个字中写入0x55。
然后,立即将这两个字的内容立即读回。显然,我们读到的内容应该分别是0xaa和0x55。如果不是,则说明这个memorypage所占据的地址范围不是一段有效的RAM空间。
恢复这两个字的原始内容。测试完毕。
为了得到一段干净的RAM空间范围,我们也可以将所安排的RAM空间范围进行清零操作。
3.1.3拷贝stage2到RAM中
拷贝时要确定两点:
(1)stage2的可执行映象在固态存储设备的存放起始地址和终止地址;
(2)RAM空间的起始地址。
3.1.4设置堆栈指针sp
堆栈指针的设置是为了执行C语言代码作好准备。通常我们可以把sp的值设置为(stage2_end-4),也即在3.1.2节所安排的那个1MB的RAM空间的最顶端(堆栈向下生长)。
此外,在设置堆栈指针sp之前,也可以关闭led灯,以提示用户我们准备跳转到stage2。
经过上述这些执行步骤后,系统的物理内存布局应该如下图2所示。
3.1.5跳转到stage2的C入口点
在上述一切都就绪后,就可以跳转到BootLoader的stage2去执行了。
比如,在ARM系统中,这可以通过修改PC寄存器为合适的地址来实现。
3.2Boot Loader的stage2
正如前面所说,stage2的代码通常用C语言来实现,以便于实现更复杂的功能和取得更好的代码可读性和可移植性。
但是与普通C语言应用程序不同的是,在编译和链接bootloader这样的程序时,我们不能使用glibc库中的任何支持函数。其原因是显而易见的。这就给我们带来一个问题,那就是从那里跳转进main()函数呢?直接把main()函数的起始地址作为整个stage2执行映像的入口点或许是最直接的想法。但是这样做有两个缺点:
1)无法通过main()函数传递函数参数;
2)无法处理main()函数返回的情况。
一种更为巧妙的方法是利用trampoline(弹簧床)的概念。也即,用汇编语言写一段trampoline小程序,并将这段trampoline小程序来作为stage2可执行映象的执行入口点。然后我们可以在trampoline汇编小程序中用CPU跳转指令跳入main()函数中去执行;而当main()函数返回时,CPU执行路径显然再次回到我们的trampoline程序。简而言之,这种方法的思想就是:用这段trampoline小程序来作为main()函数的外部包裹(externalwrapper)。
下面给出一个简单的trampoline程序示例(来自blob):
.text
.globl_trampoline
_trampoline:
blmain
/*if main ever returns we just call it again */
b_trampoline
可以看出,当main()函数返回后,我们又用一条跳转指令重新执行trampoline程序,当然也就重新执行main()函数,这也就是trampoline(弹簧床)一词的意思所在。
3.2.1初始化本阶段要使用到的硬件设备
这通常包括:
(1)初始化至少一个串口,以便和终端用户进行I/O输出信息;
(2)初始化计时器等。
在初始化这些设备之前,也可以重新把LED灯点亮,以表明我们已经进入main()函数执行。
设备初始化完成后,可以输出一些打印信息,程序名字字符串、版本号等。
3.2.2检测系统的内存映射(memorymap)
所谓内存映射就是指在整个4GB物理地址空间中有哪些地址范围被分配用来寻址系统的RAM单元。
比如,在SA-1100CPU中,从0xC000,0000开始的512M地址空间被用作系统的RAM地址空间,而在SamsungS3C44B0X CPU 中,从0x0c00,0000到0x1000,0000之间的64M地址空间被用作系统的RAM地址空间。虽然CPU通常预留出一大段足够的地址空间给系统RAM,但是在搭建具体的嵌入式系统时却不一定会实现CPU预留的全部RAM地址空间。也就是说,具体的嵌入式系统往往只把CPU预留的全部RAM地址空间中的一部分映射到RAM单元上,而让剩下的那部分预留RAM地址空间处于未使用状态。
由于上述这个事实,因此BootLoader的stage2必须在它想干点什么(比如,将存储在flash上的内核映像读到RAM空间中)之前检测整个系统的内存映射情况,也即它必须知道CPU预留的全部RAM地址空间中的哪些被真正映射到RAM地址单元,哪些是处于"unused"状态的。
(1)内存映射的描述
可以用如下数据结构来描述RAM地址空间中的一段连续(continuous)的地址范围:
typedefstruct memory_area_struct {
u32start; /* the base address of the memory region */
u32size; /* the byte number of the memory region */
intused;
}memory_area_t;
这段RAM地址空间中的连续地址范围可以处于两种状态之一:
(1)used=1,则说明这段连续的地址范围已被实现,也即真正地被映射到RAM单元上。
(2)used=0,则说明这段连续的地址范围并未被系统所实现,而是处于未使用状态。
基于上述memory_area_t数据结构,整个CPU预留的RAM地址空间可以用一个memory_area_t类型的数组来表示,如下所示:
memory_area_tmemory_map[NUM_MEM_AREAS] = {
[0... (NUM_MEM_AREAS - 1)] = {
.start= 0,
.size= 0,
.used= 0
},
};
(2)内存映射的检测
下面我们给出一个可用来检测整个RAM地址空间内存映射情况的简单而有效的算法:
/*数组初始化*/
for(i= 0; i < NUM_MEM_AREAS; i++)
memory_map[i].used= 0;
/*first write a 0 to all memory locations */
for(addr= MEM_START; addr < MEM_END; addr += PAGE_SIZE)
*(u32 *)addr = 0;
for(i= 0, addr = MEM_START; addr < MEM_END; addr += PAGE_SIZE) {
/*
*检测从基地址MEM_START+i*PAGE_SIZE开始,大小为
*PAGE_SIZE的地址空间是否是有效的RAM地址空间。
*/
调用3.1.2节中的算法test_mempage();
if( current memory page isnot a valid ram page) {
/*no RAM here */
if(memory_map[i].used)
i++;
continue;
}
/*
*当前页已经是一个被映射到RAM的有效地址范围
*但是还要看看当前页是否只是4GB地址空间中某个地址页的别名?
*/
if(*(u32 *)addr != 0) { /* alias? */
/*这个内存页是4GB地址空间中某个地址页的别名*/
if( memory_map[i].used )
i++;
continue;
}
/*
*当前页已经是一个被映射到RAM的有效地址范围
*而且它也不是4GB地址空间中某个地址页的别名。
*/
if(memory_map[i].used == 0) {
memory_map[i].start= addr;
memory_map[i].size= PAGE_SIZE;
memory_map[i].used= 1;
}else {
memory_map[i].size+= PAGE_SIZE;
}
}/* end of for (…) */
在用上述算法检测完系统的内存映射情况后,BootLoader也可以将内存映射的详细信息打印到串口。
3.2.3加载内核映像和根文件系统映像
(1)规划内存占用的布局
这里包括两个方面:
内核映像所占用的内存范围;
根文件系统所占用的内存范围。
在规划内存占用的布局时,主要考虑基地址和映像的大小两个方面。
对于内核映像,一般将其拷贝到从(MEM_START+0x8000)这个基地址开始的大约1MB大小的内存范围内(嵌入式Linux的内核一般都不超过1MB)。为什么要把从MEM_START到MEM_START+0x8000这段32KB大小的内存空出来呢?这是因为Linux内核要在这段内存中放置一些全局数据结构,如:启动参数和内核页表等信息。
而对于根文件系统映像,则一般将其拷贝到MEM_START+0x0010,0000开始的地方。如果用Ramdisk作为根文件系统映像,则其解压后的大小一般是1MB。
(2)从Flash上拷贝
由于像ARM这样的嵌入式CPU通常都是在统一的内存地址空间中寻址Flash等固态存储设备的,因此从Flash上读取数据与从RAM单元中读取数据并没有什么不同。用一个简单的循环就可以完成从Flash设备上拷贝映像的工作:
while(count){
*dest++= *src++; /* they are all aligned with word boundary */
count-= 4; /* byte number */
};
3.2.4设置内核的启动参数
应该说,在将内核映像和根文件系统映像拷贝到RAM空间中后,就可以准备启动Linux内核了。
但是在调用内核之前,应该作一步准备工作,即:设置Linux内核的启动参数。
Linux2.4.x以后的内核都期望以标记列表(taggedlist)的形式来传递启动参数。启动参数标记列表以标记ATAG_CORE开始,以标记ATAG_NONE结束。每个标记由标识被传递参数的tag_header结构以及随后的参数值数据结构来组成。
数据结构tag和tag_header定义在Linux内核源码的include/asm/setup.h头文件中:
/*The list ends with an ATAG_NONE node. */
#defineATAG_NONE 0x00000000
structtag_header {
u32size; /*注意,这里size是字数为单位的*/
u32tag;
};
……
structtag {
structtag_header hdr;
union{
structtag_core core;
structtag_mem32 mem;
structtag_videotext videotext;
structtag_ramdisk ramdisk;
structtag_initrd initrd;
structtag_serialnr serialnr;
structtag_revision revision;
structtag_videolfb videolfb;
structtag_cmdline cmdline;
/*
*Acorn specific
*/
structtag_acorn acorn;
/*
*DC21285 specific
*/
structtag_memclk memclk;
}u;
};
在嵌入式Linux系统中,通常需要由BootLoader设置的常见启动参数有:ATAG_CORE、ATAG_MEM、ATAG_CMDLINE、ATAG_RAMDISK、ATAG_INITRD等。
比如,设置ATAG_CORE的代码如下:
params= (struct tag *)BOOT_PARAMS;
params->hdr.tag= ATAG_CORE;
params->hdr.size= tag_size(tag_core);
params->u.core.flags= 0;
params->u.core.pagesize= 0;
params->u.core.rootdev= 0;
params= tag_next(params);
其中,BOOT_PARAMS表示内核启动参数在内存中的起始基地址,指针params是一个structtag类型的指针。
宏tag_next()将以指向当前标记的指针为参数,计算紧临当前标记的下一个标记的起始地址。
注意,内核的根文件系统所在的设备ID就是在这里设置的。
下面是设置内存映射情况的示例代码:
for(i= 0; i < NUM_MEM_AREAS; i++) {
if(memory_map[i].used){
params->hdr.tag= ATAG_MEM;
params->hdr.size= tag_size(tag_mem32);
params->u.mem.start= memory_map[i].start;
params->u.mem.size= memory_map[i].size;
params= tag_next(params);
}
}
可以看出,在memory_map[]数组中,每一个有效的内存段都对应一个ATAG_MEM参数标记
Linux内核在启动时可以以命令行参数的形式来接收信息,利用这一点我们可以向内核提供那些内核不
能自己检测的硬件参数信息,或者重载(override)内核自己检测到的信息。
比如,我们用这样一个命令行参数字符串"console=ttyS0,115200n8"来通知内核以ttyS0作为控制台,且串口采用"115200bps、无奇偶校验、8位数据位"这样的设置。下面是一段设置调用内核命令行参数字符串的示例代码:
char*p;
/*eat leading white space */
for(p= commandline; *p == ' '; p++)
;
/*skip non-existent command lines so the kernel will still
*use its default command line.
*/
if(*p== '')
return;
params->hdr.tag= ATAG_CMDLINE;
params->hdr.size= (sizeof(struct tag_header) + strlen(p) + 1 + 4) >>2;
strcpy(params->u.cmdline.cmdline,p);
params= tag_next(params);
请注意在上述代码中,设置tag_header的大小时,必须包括字符串的终止符'',此外还要将字节数向上圆整4个字节,因为tag_header结构中的size成员表示的是字数。
下面是设置ATAG_INITRD的示例代码,它告诉内核在RAM中的什么地方可以找到initrd映象(压缩格式)以及它的大小:
params->hdr.tag= ATAG_INITRD2;
params->hdr.size= tag_size(tag_initrd);
params->u.initrd.start= RAMDISK_RAM_BASE;
params->u.initrd.size= INITRD_LEN;
params= tag_next(params);
下面是设置ATAG_RAMDISK的示例代码,它告诉内核解压后的Ramdisk有多大(单位是KB):
params->hdr.tag= ATAG_RAMDISK;
params->hdr.size= tag_size(tag_ramdisk);
params->u.ramdisk.start= 0;
params->u.ramdisk.size= RAMDISK_SIZE; /*请注意,单位是KB*/
params->u.ramdisk.flags= 1; /* automatically load ramdisk */
params= tag_next(params);
最后,设置ATAG_NONE标记,结束整个启动参数列表:
staticvoid setup_end_tag(void)
{
params->hdr.tag= ATAG_NONE;
params->hdr.size= 0;
}
3.2.5调用内核
BootLoader调用Linux内核的方法是直接跳转到内核的第一条指令处,
也即直接跳转到MEM_START+0x8000地址处。在跳转时,下列条件要满足:
CPU寄存器的设置:
R0=0;
R1=机器类型ID;关于MachineType Number,可以参见linux/arch/arm/tools/mach-types。
R2=启动参数标记列表在RAM中起始基地址;
CPU模式:
必须禁止中断(IRQs和FIQs);
CPU必须SVC模式;
Cache和MMU的设置:
MMU必须关闭;
指令Cache可以打开也可以关闭;
数据Cache必须关闭;
如果用C语言,可以像下列示例代码这样来调用内核:
void(*theKernel)(int zero, int arch, u32 params_addr) = (void (*)(int,int,u32))KERNEL_RAM_BASE;
……
theKernel(0,ARCH_NUMBER, (u32) kernel_params_start);
注意,theKernel()函数调用应该永远不返回的。如果这个调用返回,则说明出错。
四.关于串口终端
在bootloader程序的设计与实现中,没有什么能够比从串口终端正确地收到打印信息能更令人激动了。此外,向串口终端打印信息也是一个非常重要而又有效的调试手段。但是,我们经常会碰到串口终端显示乱码或根本没有显示的问题。造成这个问题主要有两种原因:
bootloader对串口的初始化设置不正确。
运行在host端的终端仿真程序对串口的设置不正确,这包括:波特率、奇偶校验、数据位和停止位等方面的设置。
此外,有时也会碰到这样的问题,那就是:在bootloader的运行过程中我们可以正确地向串口终端输出信息,但当bootloader启动内核后却无法看到内核的启动输出信息。对这一问题的原因可以从以下几个方面来考虑:
首先请确认你的内核在编译时配置了对串口终端的支持,并配置了正确的串口驱动程序。
你的bootloader对串口的初始化设置可能会和内核对串口的初始化设置不一致。此外,对于诸如s3c44b0x这样的CPU,CPU时钟频率的设置也会影响串口,因此如果bootloader和内核对其CPU时钟频率的设置不一致,也会使串口终端无法正确显示信息。
最后,还要确认bootloader所用的内核基地址必须和内核映像在编译时所用的运行基地址一致,尤其是对于uClinux而言。假设你的内核映像在编译时用的基地址是0xc0008000,但你的bootloader却将它加载到0xc0010000处去执行,那么内核映像当然不能正确地执行了。
五.结束语
BootLoader的设计与实现是一个非常复杂的过程。如果不能从串口收到那激动人心的"uncompressinglinux.................. done, booting thekernel……"内核启动信息,恐怕谁也不能说:"嗨,我的bootloader已经成功地转起来了!"。