本篇以1991年的linux 0.11版作为基准,可参考赵炯老师的linux内核完全注释。
一 从开机加电到执行main函数之前的过程
BIOS启动加载过程:
开机加电,此时内存RAM中无任何数据,而CPU只从内存中读取数据。那么需要借助BIOS从启动盘(软盘,1991年时只有软盘启动或硬盘)中读取os程序。加电时,cpu进入16位实模式状态运行,CS值置为0xF000,IP值置为0XFFF0,CS:IP就指向0XFFFF0这个位置(CS左移4位+IP),也就是BIOS地址范围2^20=1M。BIOS固化在主板的ROM芯片里,程序8K左右。ROM根据主板而不是根据操作系统而设计的。
BIOS程序启动,检测显卡,内存等硬件,在内存开始位置0x00000~0x003FF 1KB大小,建立中断向量表,中断向量表中有256个中断向量,每个中断向量4字节(CS和IP各占2字节),都指向一个具体的中断服务程序;0x00400~0x004FF 256字节,建立BIOS数据区;0x0E05B~0X0FFFE 8KB大小,中断服务程序。
对于多核cpu,加电或复位,主核0立即启动(其他核心未启动0,EIP指向ROM,主核0读取BIOS引导程序到内存RAM。RAM是统一寻址,而ROM只对主核是可读的。
从3个批次从启动盘加载操作系统内核程序并为保护模式做准备:
1 BIOS int 0x19中断向量所指向的中断服务程序由BIOS执行,把软盘0磁头0磁道第一扇区512字节的bootsect引导程序加载到内存0x07C00处。这个中断服务程序的功能时BIOS事先设计号的,代码固定,与linux操作系统无关。bootsect.s是汇编程序
bootsect规划内存并把自身从0x07C000(BOOTSEG)复制到0x90000(INITSEG),此时有2段完全相同的代码。
2 BIOS INT 0x13中断向量所指向的磁盘服务程序,有linux自身的启动代码bootsect执行,将软盘第二个扇区开始的4个扇区,即setup.s对应的程序加载到内存SETUPSEG(0X90200)处。
3 BIOS INT 0x13,bootsect调用read_it子程序将随后的240个扇区的system模块加载到内存SYSSEG(0X10000)处往后的120kb空间。
寄存器:
CS 代码段寄存器
IP 指令指针寄存器,指令在代码段内偏移地址
SS stack segment栈段寄存器
SP stack pointer 栈顶指针寄存器
开始向32位模式转变,为main函数的调用做准备:
关中断并将system移动到内存起始位置0X00000
设置中断描述表和全局描述表
打开A20,实现32位寻址
为保护模式下执行head.s做准备
head.s开始执行
二 设备环境初始化及激活进程0
设置根设备-4,硬盘
规划物理内存格局,设置缓冲区,虚拟盘,主内存
设置虚拟盘空间并初始化
内存管理结构mem-map初始化
异常处理类中断服务程序挂接
初始化块设备请求项结构
建立人机交互界面相关的外设的中断服务程序挂接:
对串行口进行设置
对显示器进行设置
对键盘进行设置
开机启动时间设置
初始化进程0
设置时钟中断
设置系统调用总入口
初始化缓冲区管理结构
初始化硬盘
初始化软盘
开启中断
进程0由0特权级翻转到3特权级,成为真正的进程
三 进程1的创建及执行
进程0创建进程1
在task[64]中为进程1申请ige空闲位置并获取进程号
调用copy_process函数
设置进程1的分页管理
进程1共享进程0的文件
设置进程1在GDT中的表项
进程1处于就绪态
内核第一次做进程调度
轮转到进程1执行:
进程1为安装硬盘文件系统做准备
进程1格式化虚拟盘并更换根设备为虚拟盘
进程1在根设备上加载根文件系统
四 进程2的创建及执行
打开标准输入设备文件
打开标准输出标准错误输出设备文件
进程1创建进程2 并切换到进程2执行
加载shell程序:
关闭标准输入设备文件,打开rc文件
检测shell文件
为shell程序的执行做准备
执行shell程序
系统实现怠速:
创建update进程
切换到shell进程执行
重建shell
五 文件操作
磁盘划分N个扇区,每个扇区512B,操作系统读取硬盘文件,一次性连续读取多个扇区即一块block 4KB。
0号物理块:引导块。不属于文件系统。如果有多个文件系统,只有根文件系统才有引导程序存在引导块
1块:超级块,存放文件系统的大小,空闲块数目,空闲块索引表,空闲i节点数目,空闲i节点索引表,封锁标记等。超级块是系统为文件分配存储空间,回收空间的依据。
2块:i节点位图
3块:逻辑块位图
4~18 inode索引节点:文件元数据
19块:数据块,存放文件内容
超级块/usr/include/sys/filsys.h
struct filsys
{
ushort s_isize; /* 磁盘索引节点区所占用的数据块数*/
daddr_t s_fsize; /* 整个文件系统的数据块数*/
short s_nfree; /* 在空闲块登录表中当前登记的空闲块数目*/
daddr_t s_free[NICFREE]; /* 空闲块登记表*/
short s_ninode; /* 空闲索引节点数*/
ino_t s_inode[NICINOD]; /* 空闲节点登记表*/
char s_flock; /* 加锁标志位*/
char s_ilock; /* 节点加锁标志位*/
char s_fmod; /* 超级块修改标志*/
char s_ronly; /* 文件系统只读标志*/
time_t s_time; /* 超级块上次修改的时间*/
short s_dinfo[4]; /* 设备信息*/
daddr_t s_tfree; /* 空闲块总数*/
ino_t s_tinode; /* 空闲节点总数*/
char s_fname[6]; /* 文件系统名称*/
char s_fpack[6];
long s_fill[13]; /* 填空位*/
long s_magic; /* 指示文件系统的幻数*/
long s_type; /* 新文件系统类型*/
};
i节点结构如下(参考/usr/include/sys/ino.h):
struct dinode
{
ushort di_mode; /*文件类型+用户权限*/
short di_nlink; /*文件链接数*/
ushort di_uid; /*属主用户id*/
ushort di_gid; /*属主用户组id*/
off_t di_size; /*文件大小*/
char di_addr[40]; /*文件数据区起点地址*/
time_t di_atime; /*最后访问时间*/
time_t di_mtime; /*最后修改时间*/
time_t di_ctime; /*创建时间*/
};
用户进程task_struct中的filp[20]掌控一个进程可以打开的文件,file_table[64]是管理所有进程打开文件的数据结构.内核通过inode_table[32]掌控正在使用的文件i节点,同一个文件的多次打开也仅占用inode_table的一项.
安装文件系统:
获取外设的超级块
确定根文件系统的挂节点
将超级块与根文件系统挂接
打开文件:
将进程的*filp[20]与file_table[64]挂接
获取文件i节点
将文件i节点与file_table[64]挂接
绑定关系建立后,操作系统把fd(在file_table[64]中的偏移量)返回给用户进程作为文件句柄,以后进程只要把fd告诉操作系统,操作系统就可以找到对应文件的i节点。
i节点如何管理文件
i节点通过i_zone结构来管理文件数据块的,i_zone结构如下图所示。
i_zone[9]中记录着文件数据块内容的分布情况,但毕竟只有9个表项,文件数据块如果多于9个就不够用。
为此Linux0.11中采取一种策略:
1、当数据总量小于等于7KB时,i_zone[9]的前7个成员已经足够用了,直接记录这7个数据块的块号。
2、当数据量大于7KB时,利用一级间接管理方案。i_zone[9]第8个成员记录一个数据块的块号,这个块中存储的是该文件后续512个数据块在外设中的逻辑块号,通过这些块号就可以找到相应的数据块。由于一个数据块大小为1024字节,而每个块号占用2字节,所以一个数据块最多能存储512个块号。这样一级间接管理最多能管理7+512个数据块(7+512KB)。
3、当数据量大于7+512KB时,就要启动二级间接管理方案。让第9个成员记录512个索引块的块号,而这512个数据块中仍然存储的是索引块的块号,因此能够管理的极限是7+512+512*512个数据块。
读文件:
确定数据块在外设中的设置
将数据块读入缓冲块
将缓冲块中的数据复制到进程空间
新建文件:
查找文件
新建文件i节点
新建文件目录项
写文件:
确定文件的写入位置
申请缓冲块
将指定的数据从进程空间复制到缓冲块
数据同步外设(2种方法)
修改文件:
重定位文件的当前操作指针
修改文件
关闭文件:
当前进程的filp与file_table[64]脱钩
文件i节点别释放
删除文件:
对文件的删除条件进行检查
进行具体的删除工作
内核与不同文件系统的接口是通过file_operation这个数据结构实现的。
struct file_operations {
struct module *owner;
loff_t (*llseek) (struct file *, loff_t, int);
ssize_t (*read) (struct file *, char __user *, size_t, loff_t *);
ssize_t (*aio_read) (struct kiocb *, char __user *, size_t, loff_t);
ssize_t (*write) (struct file *, const char __user *, size_t, loff_t *);
ssize_t (*aio_write) (struct kiocb *, const char __user *, size_t, loff_t);
int (*readdir) (struct file *, void *, filldir_t);
unsigned int (*poll) (struct file *, struct poll_table_struct *);
int (*ioctl) (struct inode *, struct file *, unsigned int, unsigned long);
int (*mmap) (struct file *, struct vm_area_struct *);
int (*open) (struct inode *, struct file *);
int (*flush) (struct file *);
int (*release) (struct inode *, struct file *);
int (*fsync) (struct file *, struct dentry *, int datasync);
int (*aio_fsync) (struct kiocb *, int datasync);
int (*fasync) (int, struct file *, int);
int (*lock) (struct file *, int, struct file_lock *);
ssize_t (*readv) (struct file *, const struct iovec *, unsigned long, loff_t *);
ssize_t (*writev) (struct file *, const struct iovec *, unsigned long, loff_t *);
ssize_t (*sendfile) (struct file *, loff_t *, size_t, read_actor_t, void __user *);
ssize_t (*sendpage) (struct file *, struct page *, int, size_t, loff_t *, int);
unsigned long (*get_unmapped_area)(struct file *, unsigned long, unsigned long, unsigned long, unsigned long);
};
代表进程的task_struct
数据结构中有两个指针:
/* filesystem information */
struct fs_struct *fs;
/* open file information */
struct files_struct *files;
文件系统信息fs_struct
struct fs_struct {
atomic_t count;
rwlock_t lock;
int umask;
struct dentry * root, * pwd, * altroot;//进程当前目录,进程根目录,用户设置的替换根目录
struct vfsmount * rootmnt, * pwdmnt, * altrootmnt;
};
files_struct已打开的文件信息
struct files_struct {
atomic_t count;
spinlock_t file_lock; /* Protects all the below members. Nests inside tsk->alloc_lock */
int max_fds;
int max_fdset;
int next_fd;
struct file ** fd; /* current fd array */
fd_set *close_on_exec;
fd_set *open_fds;
fd_set close_on_exec_init;
fd_set open_fds_init;
struct file * fd_array[NR_OPEN_DEFAULT];
};
struct file
{ ... struct dentry *f_dentry; //同一个文件只有一个dentry,可以被多个进程打开
struct vfsmount *f_vfsmnt;
struct file_operations *f_op; ...
}
六 用户进程与内存管理
用户空间的内存映射采用段页式,而内核空间有自己的规则;os分配给每个进程一个独立的、连续的、虚拟的地址内存空间。内核虚拟地址在高端,物理地址在低端;虚拟低地址给用户进程。每个进程虚拟空间的3G~4G部分是相同的。
为了解决物理内存条大于4G的问题,Linux将内核地址空间划分为三部分ZONE_DMA 16M、ZONE_NORMAL 16M~896M和ZONE_HIGHMEM 896M~1G.
线性地址保护:
进程线性地址空间的格局
段基址,段限长,GDT,LDT,特权级
分页:
线性地址映射到物理地址
进程执行时分页
进程共享页面
内核分页
七 进程间通信
管道机制
信号机制
八 helloword程序运行的完整过程
系统已启动,处于怠速状态。
当用户敲击键盘输入命令./hello,输入的信息记录在终端设备文件tty0上。
敲击键盘还会产生键盘中断信号,通过8259A中断控制器进行设置,信号被传达CPU,cpu中断描述符表寄存器IDTR找到内存种的中断描述符表,再搜索中断描述符表找到键盘中断处理程序。
中断服务程序执行后,唤醒shell进程。通过进程调度轮询机制,产生时钟中断,时钟中断服务程序执行和8253定时器设置,shell进程获得时间片,由进程0切换到shell进程去执行。
shell进程从tty0设备文件上读取用户键入的指令信息,解析指令,调用fork函数创建一个用户进程。进程任务状态描述符表TSS存放着当前进程运行时所有寄存器中的数据,保障进程切换。进程局部数据描述符表LDT存放着当前进程代码段描述符和数据段描述符。所有进程的TSS和LDT的索引都存放在全局描述符GDT中。CPU中有3个专用寄存器来进程设置,全局描述符表寄存器,局部数据寄存器,任务状态寄存器。
文件硬盘加载,对文件i节点和文件头检测判断文件是否可用。i节点查找,需解析文件路径,操作目录文件和目录项,操作i节点表。头文件存放在数据块中,涉及到块位图。
helloword文件载入内存
显卡属性,颜色,显存位置,屏幕显示位置,字符数量过度是否滚动显示,如何滚动显示。