Android系统启动流程三--linux内核启动

最新推荐文章于 2024-02-07 17:15:03 发布

一抹夕阳815

最新推荐文章于 2024-02-07 17:15:03 发布

阅读量677

点赞数

分类专栏： Android

本文链接：https://blog.csdn.net/linliang815/article/details/53407461

版权

Android 专栏收录该内容

39 篇文章 0 订阅

订阅专栏

当内核与体系架构相关的汇编代码执行完毕，即跳入start_kernel。这个函数在kernel/init/main.c中。由于这部分涉及linux众多的初始化，包括设置中断、内核命令行解析，内存缓冲区建立初始化，页面分配和初始化，虚拟文件系统建立，根文件系统挂载，驱动文件挂载，调用kernel_thread创建init进程，并在kernel_init中进行启动那个。最后，启动IDLE进程并在进程中调用cpu_idle将控制权交给调度器。

具体代码：

asmlinkage void __init start_kernel(void)

{

char * command_line;

extern const struct kernel_param __start___param[], __stop___param[];

/*这两个变量为地址指针，指向内核启动参数处理相关结构体段在内存中的位置（虚拟地址）。

声明传入参数的外部参数对于ARM平台，位于 include\asm-generic\vmlinux.lds.h*/

* Need to run as early as possible, to initialize the

* lockdep hash:

lockdep是一个内核调试模块，用来检查内核互斥机制（尤其是自旋锁）潜在的死锁问题。

lockdep_init();//初始化内核依赖的关系表，初始化hash表

smp_setup_processor_id();//获取当前CPU,单处理器为空

debug_objects_early_init();//对调试对象进行早期的初始化,其实就是HASH锁和静态对象池进行初始化

* Set up the the initial canary ASAP:

初始化栈canary值

canary值的是用于防止栈溢出攻击的堆栈的保护字。

boot_init_stack_canary();

/*1.cgroup: 它的全称为control group.即一组进程的行为控制.

2.该函数主要是做数据结构和其中链表的初始化

3.参考资料： Linux cgroup机制分析之框架分析

cgroup_init_early();

local_irq_disable();//关闭系统总中断（底层调用汇编指令）

early_boot_irqs_disabled = true;

* Interrupts are still disabled. Do necessary setups, then

* enable them

boot_cpu_init();//1.激活当前CPU（在内核全局变量中将当前CPU的状态设为激活状态）

page_address_init();//高端内存相关，未定义高端内存的话为空函数

pr_notice("%s", linux_banner);

/*1.内核构架相关初始化函数,可以说是非常重要的一个初始化步骤。

其中包含了处理器相关参数的初始化、内核启动参数（tagged list）的获取和前期处理、

内存子系统的早期的初始化（bootmem分配器）。主要完成了4个方面的工作，一个就是取得MACHINE和PROCESSOR的信息然或将他们赋值

给kernel相应的全局变量，然后呢是对boot_command_line和tags接行解析，再然后呢就是

memory、cach的初始化，最后是为kernel的后续运行请求资源″**/

setup_arch(&command_line);

/*1.初始化代表内核本身内

存使用的管理结构体init_mm。

2.ps：每一个任务都有一个mm_struct结构以管理内存空间，init_mm是内核的mm_struct，其中：

3.设置成员变量* mmap指向自己，意味着内核只有一个内存管理结构;

4.设置* pgd=swapper_pg_dir，swapper_pg_dir是内核的页目录(在arm体系结构有16k，所以init_mm定义了整个kernel的内存空间)。

5.这些内容涉及到内存管理子系统*/

mm_init_owner(&init_mm, &init_task);

mm_init_cpumask(&init_mm);//初始化CPU屏蔽字

/*1.对cmdline进行备份和保存：保存未改变的comand_line到字符数组static_command_line［］中。保存 boot_command_line到字符数组saved_command_line［］中

setup_command_line(command_line);

//在多CPU架构下，第一个启动的cpu启动到一定阶段后，开始启动其它的cpu，它会为每个后来启动的cpu创建一个0号进程，而这些0号进程的堆栈的thread_info结构中的cpu成员变量则依次被分配出来（利用alloc_cpu_id()函数）并设置好，这样当这些cpu开始运行的时候就有了自己的逻辑cpu号。

/*如果没有定义CONFIG_SMP宏，则这个函数为空函数。如果定义了CONFIG_SMP宏，则这个setup_per_cpu_areas()函数给每个CPU分配内存，并拷贝.data.percpu段的数据。为系统中的每个CPU的per_cpu变量申请空间。

/*下面三段1.针对SMP处理器的内存初始化函数，如果不是SMP系统则都为空函数。 (arm为空)

2.他们的目的是给每个CPU分配内存，并拷贝.data.percpu段的数据。为系统中的每个CPU的per_cpu变量申请空间并为boot CPU设置一些数据。

3.在SMP系统中，在引导过程中使用的CPU称为boot CPU*/

setup_nr_cpu_ids();

setup_per_cpu_areas();

smp_prepare_boot_cpu(); /* arch-specific boot-cpu hooks ，设置启动的CPU为在线状态 */

build_all_zonelists(NULL, NULL);// 建立系统内存页区(zone)链表

page_alloc_init();//内存页初始化

pr_notice("Kernel command line: %s\n", boot_command_line);

parse_early_param();// 解析早期格式的内核参数

/*函数对Linux启动命令行参数进行在分析和处理,

当不能够识别前面的命令时，所调用的函数。*/

parse_args("Booting kernel", static_command_line, __start___param,

__stop___param - __start___param,

-1, -1, &unknown_bootoption);

jump_label_init();

* These use large bootmem allocations and must precede

* kmem_cache_init()

setup_log_buf(0);

/*初始化hash表，以便于从进程的PID获得对应的进程描述指针，按照开发办上的物理内存初始化pid hash表

pidhash_init();

vfs_caches_init_early();//建立节点哈希表和数据缓冲哈希表

sort_main_extable();//对异常处理函数进行排序

trap_init();//初始化硬件中断

mm_init();//建立了内核的内存分配器

* Set up the scheduler prior starting any interrupts (such as the

* timer interrupt). Full topology setup happens at smp_init()

* time - but meanwhile we still have a functioning scheduler.

sched_init();//核心进程调度器初始化

* Disable preemption - early bootup scheduling is extremely

* fragile until we cpu_idle() for the first time.

preempt_disable();//禁止调度

// 先检查中断是否已经打开，若打开，输出信息后则关闭中断。

if (WARN(!irqs_disabled(), "Interrupts were enabled *very* early, fixing it\n"))

local_irq_disable();

idr_init_cache();//创建idr缓冲区

rcu_init();//互斥访问机制

tick_nohz_init();

context_tracking_init();

radix_tree_init();//初始化radix树算法

/* init some links before init_ISA_irqs() */

early_irq_init();

init_IRQ();//使用alpha_mv结构和entry.S入口初始化系统IRQ

tick_init();

init_timers();//定时器初始化

hrtimers_init();//高精度时钟初始化

softirq_init();//软中断初始化

timekeeping_init();// 初始化资源和普通计时器

time_init();//时间、定时器初始化（包括读取CMOS时钟、估测主频、初始化定时器中断等）

sched_clock_postinit();

perf_event_init();

profile_init();// 对内核的一个性能测试工具profile进行初始化。

call_function_init();

WARN(!irqs_disabled(), "Interrupts were enabled early\n");

early_boot_irqs_disabled = false;

local_irq_enable();//使能中断

kmem_cache_init_late();//kmem_cache_init_late的目的就在于完善slab分配器的缓存机制.

* HACK ALERT! This is early. We're enabling the console before

* we've done PCI setups etc, and console_init() must be aware of

* this. But we do want output early, in case something goes wrong.

console_init();//初始化控制台以显示printk的内容

if (panic_later)

panic("Too many boot %s vars at `%s'", panic_later,

panic_param);

lockdep_info();// 如果定义了CONFIG_LOCKDEP宏，那么就打印锁依赖信息，否则什么也不做

* Need to run this when irqs are enabled, because it wants

* to self-test [hard/soft]-irqs on/off lock inversion bugs

* too:

locking_selftest();

#ifdef CONFIG_BLK_DEV_INITRD

if (initrd_start && !initrd_below_start_ok &&

page_to_pfn(virt_to_page((void *)initrd_start)) < min_low_pfn) {

pr_crit("initrd overwritten (0x%08lx < 0x%08lx) - disabling it.\n",

page_to_pfn(virt_to_page((void *)initrd_start)),

min_low_pfn);

initrd_start = 0;

}

#endif

page_cgroup_init();

debug_objects_mem_init();

kmemleak_init();

setup_per_cpu_pageset();

numa_policy_init();

if (late_time_init)

late_time_init();

sched_clock_init();

calibrate_delay();// 校准延时函数的精确度，实际上是校准loops_per_jiffy全局变量，即每个时钟滴答内CPU执行的指令数

pidmap_init();//进程号位图初始化，一般用一个錺age来表示所有进程的錺id占用情况

anon_vma_init();// 匿名虚拟内存域（ anonymous VMA）初始化

acpi_early_init();

#ifdef CONFIG_X86

if (efi_enabled(EFI_RUNTIME_SERVICES))

efi_enter_virtual_mode();

#endif

#ifdef CONFIG_X86_ESPFIX64

/* Should be run before the first non-init thread is created */

init_espfix_bsp();

#endif

thread_info_cache_init();//获取thread_info缓存空间，大部分构架为空函数（包括ARM

cred_init();//任务信用系统初始化。详见：Documentation/credentials.txt

fork_init(totalram_pages);//进程创建机制初始化。为内核"task_struct"分配空间，计算最大任务数。

proc_caches_init();//初始化进程创建机制所需的其他数据结构，为其申请空间。

buffer_init();//块设备读写缓冲区初始化（同时创建"buffer_head"cache用户加速访问）

key_init();//内核密钥管理系统初始化

security_init();//内核安全框架初始化

dbg_late_init();

vfs_caches_init (totalram_pages);//虚拟文件系统（VFS）缓存初始化

signals_init();//信号管理系统初始化

/* rootfs populating might need page-writeback */

page_writeback_init();// CPU在内存中开辟高速缓存，CPU直接访问高速缓存提以高速度。当cpu更新了高速缓存的数据后，需要定期将高速缓存的数据写回到存储介质中，比如磁盘和flash等。这个函数初始化写回的周期

#ifdef CONFIG_PROC_FS

proc_root_init();// 如果配置了proc文件系统，则需初始化并加载proc文件系统。在根目录的proc文件夹就是proc文件系统，这个文件系统是ram类型的，记录系统的临时数据，系统关机后不会写回到flash中

#endif

cgroup_init();//control group正式初始化

cpuset_init();//CPUSET初始化。参考资料：《多核心計算環境—NUMA與CPUSET簡介》

taskstats_init_early();//任务状态早期初始化函数：为结构体获取高速缓存，并初始化互斥机制。

delayacct_init();//任务延迟初始化

check_bugs();//检查CPU BUG的函数，通过软件规避BUG

sfi_init_late();//功能跟踪调试机制初始化，ftrace 是 function trace 的简称

if (efi_enabled(EFI_RUNTIME_SERVICES)) {

efi_late_init();

efi_free_boot_services();

}

ftrace_init();

/* Do the rest non-__init'ed, we're now alive */

rest_init();/ / 虽然从名字上来说是剩余的初始化。但是这个函数中的初始化包含了很多的内容，init进程就在这里启动

}

start_kernel在其最后一个函数rest_init的调用中，会通过kernel_thread来生成一个内核进程，后者则会在新进程环境下调用kernel_init函数，kernel_init一个让人感兴趣的地方在于它会调用run_init_process来执行根文件系统下的 /sbin/init等程序：

static int __ref kernel_init(void *unused)
{
...
run_init_process("/sbin/init");
run_init_process("/etc/init");
run_init_process("/bin/init");
run_init_process("/bin/sh");
panic("No init found. Try passing init= option to kernel. "
"See Linux Documentation/init.txt for guidance.");
}

run_init_process的核心调用就是do_execve,后者调用do_execve_common来干执行一个新程序的活，在我们这个例子中要执行的新程序来自/sbin/init，如果用file命令看一下会发现它其实是个ELF格式的动态链接库，而不是那种普通的可执行文件，所以 do_execve_common会负责打开、解析这个文件并找到其可执行入口点，这个过程相当繁琐，我们不妨直接看那些跟我们问题密切相关的代码，do_execve_common会调用search_binary_handler去查找所谓的binary formats handler，ELF显然是最常见的一种格式：

int search_binary_handler(struct linux_binprm *bprm,struct pt_regs *regs)
{
...
for (try=0; try<2; try++) {
read_lock(&binfmt_lock);
list_for_each_entry(fmt, &formats, lh) {
int (*fn)(struct linux_binprm *, struct pt_regs *) = fmt->load_binary;
...
retval = fn(bprm, regs);
...
}
...
}
}

代码中针对ELF格式的 fmt->load_binary即为load_elf_binary, 所以fn=load_elf_binary, 后续对fn的调用即是调用load_elf_binary，这是个非常长的函数，直到其最后，我们才找到所需要的答案：

static int load_elf_binary(struct linux_binprm *bprm, struct pt_regs *regs)
{
...
start_thread(regs, elf_entry, bprm->p);
...
}

上述代码中的elf_entry即为/sbin/init中的执行入口点， bprm->p为应用程序新栈(应该已经在用户空间了)，start_thread的实现为：

void
start_thread(struct pt_regs *regs, unsigned long new_ip, unsigned long new_sp)
{
set_user_gs(regs, 0);
regs->fs = 0;
regs->ds = __USER_DS;
regs->es = __USER_DS;
regs->ss = __USER_DS;
regs->cs = __USER_CS;
regs->ip = new_ip;
regs->sp = new_sp;
/*
* Free the old FP and other extended state
*/
free_thread_xstate(current);
}

在这里，我们看到了__USER_CS的身影，在x86 64位系统架构下，该值为0x33. start_thread函数最关键的地方在于修改了regs->cs= __USER_CS, regs->ip= new_ip，其实就是人为地改变了系统调用int $0x80指令压入堆栈的下条指令的地址，这样当系统调用结束通过iret指令返回时，代码将从这里的__USER_CS:elf_entry处开始执行，也就是/sbin/init中的入口点。start_thread的代码与kernel_thread非常神似，不过它不需要象 kernel_thread那样在最后调用do_fork来产生一个task_struct实例出来了，因为目前只需要在当前进程上下文中执行代码，而不是创建一个新进程。关于kernel_thread，我在本版曾有一篇帖子分析过，当时基于的是ARM架构。

所以我们看到，start_kernel在最后调用rest_init，而后者通过对kernel_thread的调用产生一个新进程(pid=1)，新进程在其kernel_init()-->init_post()调用链中将通过run_init_process来执行用户空间的/sbin /init，run_init_process的核心是个系统调用，当系统调用返回时代码将从/sbin/init的入口点处开始执行，所以虽然我们知道 post_init中有如下几个run_init_process的调用：

run_init_process("/sbin/init");
run_init_process("/etc/init");
run_init_process("/bin/init");
run_init_process("/bin/sh");

但是只要比如/sbin/init被成功调用，run_init_process中的kernel_execve函数将无法返回，因为它执行int $0x80时压入堆栈中回家的路径被后续的C函数调用链给改写了，这样4个run_init_process只会有一个有机会被成功执行，如果这4个函数都失败了，那么内核将会panic. 所以内核设计时必须确保用来改写int $0x80压入栈中的cs和ip的start_thread函数之后不会再有其他额外的代码导致整个调用链的失败，否则代码将执行非预期的指令，内核进入不稳定状态。

至此，init进程成功启动。

参考资料：

理解start_kernel中函数语句的作用

一抹夕阳815

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Android系统启动流程三--linux内核启动

当内核与体系架构相关的汇编代码执行完毕，即跳入start_kernel。这个函数在kernel/init/main.c中。由于这部分涉及linux众多的初始化，包括设置中断、内核命令行解析，内存缓冲区建立初始化，页面分配和初始化，虚拟文件系统建立，根文件系统挂载，驱动文件挂载，调用kernel_thread创建init进程，并在kernel_init中进行启动那个。最后，启动IDLE进程并在进程中
复制链接

扫一扫