Android系统启动流程 三--linux内核启动

当内核与体系架构相关的汇编代码执行完毕,即跳入start_kernel。这个函数在kernel/init/main.c中。由于这部分涉及linux众多的初始化,包括设置中断、内核命令行解析,内存缓冲区建立初始化,页面分配和初始化,虚拟文件系统建立,根文件系统挂载,驱动文件挂载,调用kernel_thread创建init进程,并在kernel_init中进行启动那个。最后,启动IDLE进程并在进程中调用cpu_idle将控制权交给调度器。
具体代码:
asmlinkage void __init start_kernel(void)
{
    char * command_line;
    extern const struct kernel_param __start___param[], __stop___param[];
    /*这两个变量为地址指针,指向内核启动参数处理相关结构体段在内存中的位置(虚拟地址)。 
    声明传入参数的外部参数对于ARM平台,位于 include\asm-generic\vmlinux.lds.h*/  
      
/* 
     * Need to run as early as possible, to initialize the 
     * lockdep hash: 
        lockdep是一个内核调试模块,用来检查内核互斥机制(尤其是自旋锁)潜在的死锁问题。 
     */ 
    lockdep_init();//初始化内核依赖的关系表,初始化hash表  
    smp_setup_processor_id();//获取当前CPU,单处理器为空 
    debug_objects_early_init();//对调试对象进行早期的初始化,其实就是HASH锁和静态对象池进行初始化  
        /* 
              * Set up the the initial canary ASAP: 
               初始化栈canary值 
               canary值的是用于防止栈溢出攻击的堆栈的保护字 。 
            */ 
    boot_init_stack_canary();
     /*1.cgroup: 它的全称为control group.即一组进程的行为控制.  
           2.该函数主要是做数据结构和其中链表的初始化  
           3.参考资料: Linux cgroup机制分析之框架分析 
         */      
cgroup_init_early();
    local_irq_disable();//关闭系统总中断(底层调用汇编指令)
    early_boot_irqs_disabled = true;
/*
 * Interrupts are still disabled. Do necessary setups, then
 * enable them
 */
     boot_cpu_init();//1.激活当前CPU(在内核全局变量中将当前CPU的状态设为激活状态)  
        page_address_init();//高端内存相关,未定义高端内存的话为空函数  
        pr_notice("%s", linux_banner); 
        /*1.内核构架相关初始化函数,可以说是非常重要的一个初始化步骤。 
        其中包含了处理器相关参数的初始化、内核启动参数(tagged list)的获取和前期处理、 
        内存子系统的早期的初始化(bootmem分配器)。 主要完成了4个方面的工作,一个就是取得MACHINE和PROCESSOR的信息然或将他们赋值 
        给kernel相应的全局变量,然后呢是对boot_command_line和tags接行解析,再然后呢就是 
        memory、cach的初始化,最后是为kernel的后续运行请求资源″**/  
        setup_arch(&command_line);  
        /*1.初始化代表内核本身内 
        存使用的管理结构体init_mm。  
        2.ps:每一个任务都有一个mm_struct结构以管理内存空间,init_mm是内核的mm_struct,其中:  
        3.设置成员变量* mmap指向自己,意味着内核只有一个内存管理结构;  
        4.设置* pgd=swapper_pg_dir,swapper_pg_dir是内核的页目录(在arm体系结构有16k, 所以init_mm定义了整个kernel的内存空间)。  
        5.这些内容涉及到内存管理子系统*/  
        mm_init_owner(&init_mm, &init_task);  
        mm_init_cpumask(&init_mm);//初始化CPU屏蔽字  
        /*1.对cmdline进行备份和保存:保存未改变的comand_line到字符数组static_command_line[] 中。保存  boot_command_line到字符数组saved_command_line[]中 
    */  
        setup_command_line(command_line); 
//在多CPU架构下,第一个启动的cpu启动到一定阶段后,开始启动其它的cpu,它会为每个后来启动的cpu创建一个0号进程,而这些0号进程的堆栈的thread_info结构中的cpu成员变量则依次被分配出来(利用alloc_cpu_id()函数)并设置好,这样当这些cpu开始运行的时候就有了自己的逻辑cpu号。
        /*如果没有定义CONFIG_SMP宏,则这个函数为空函数。如果定义了CONFIG_SMP宏,则这个setup_per_cpu_areas()函数给每个CPU分配内存,并拷贝.data.percpu段的数据。为系统中的每个CPU的per_cpu变量申请空间。 
        */  
        /*下面三段1.针对SMP处理器的内存初始化函数,如果不是SMP系统则都为空函数。 (arm为空)  
        2.他们的目的是给每个CPU分配内存,并拷贝.data.percpu段的数据。为系统中的每个CPU的per_cpu变量申请空间并为boot CPU设置一些数据。  
        3.在SMP系统中,在引导过程中使用的CPU称为boot CPU*/ 
    setup_nr_cpu_ids();
    setup_per_cpu_areas();
    smp_prepare_boot_cpu();    /* arch-specific boot-cpu hooks , 设置启动的CPU为在线状态 */
    build_all_zonelists(NULL, NULL);//  建立系统内存页区(zone)链表 
    page_alloc_init();//内存页初始化 
    pr_notice("Kernel command line: %s\n", boot_command_line);
    parse_early_param();//  解析早期格式的内核参数  
        /*函数对Linux启动命令行参数进行在分析和处理, 
        当不能够识别前面的命令时,所调用的函数。*/  
    parse_args("Booting kernel", static_command_line, __start___param,
           __stop___param - __start___param,
           -1, -1, &unknown_bootoption);
    jump_label_init();
    /*
     * These use large bootmem allocations and must precede
     * kmem_cache_init()
     */
    setup_log_buf(0);
     /*初始化hash表,以便于从进程的PID获得对应的进程描述指针,按照开发办上的物理内存初始化pid hash表 
        */ 
    pidhash_init();
    vfs_caches_init_early();//建立节点哈希表和数据缓冲哈希表 
    sort_main_extable();//对异常处理函数进行排序
    trap_init();//初始化硬件中断 
    mm_init();//建立了内核的内存分配器   
    /*
     * Set up the scheduler prior starting any interrupts (such as the
     * timer interrupt). Full topology setup happens at smp_init()
     * time - but meanwhile we still have a functioning scheduler.
     */
    sched_init();//核心进程调度器初始化
    /*
     * Disable preemption - early bootup scheduling is extremely
     * fragile until we cpu_idle() for the first time.
     */
    preempt_disable();//禁止调度
     //  先检查中断是否已经打开,若打开,输出信息后则关闭中断。
    if (WARN(!irqs_disabled(), "Interrupts were enabled *very* early, fixing it\n"))
        local_irq_disable();
    idr_init_cache();//创建idr缓冲区  
    rcu_init();//互斥访问机制 
    tick_nohz_init();
    context_tracking_init();
    radix_tree_init();//初始化radix树算法
    /* init some links before init_ISA_irqs() */
    early_irq_init();
    init_IRQ();//使用alpha_mv结构和entry.S入口初始化系统IRQ
    tick_init();
    init_timers();//定时器初始化
    hrtimers_init();//高精度时钟初始化
    softirq_init();//软中断初始化
    timekeeping_init();//   初始化资源和普通计时器 
    time_init();//时间、定时器初始化(包括读取CMOS时钟、估测主频、初始化定时器中断等)
    sched_clock_postinit();
    perf_event_init();
    profile_init();//   对内核的一个性能测试工具profile进行初始化。
    call_function_init();
    WARN(!irqs_disabled(), "Interrupts were enabled early\n");
    early_boot_irqs_disabled = false;
    local_irq_enable();//使能中断 
    kmem_cache_init_late();//kmem_cache_init_late的目的就在于完善slab分配器的缓存机制.
    /*
     * HACK ALERT! This is early. We're enabling the console before
     * we've done PCI setups etc, and console_init() must be aware of
     * this. But we do want output early, in case something goes wrong.
     */
    console_init();//初始化控制台以显示printk的内容  
    if (panic_later)
        panic("Too many boot %s vars at `%s'", panic_later,
              panic_param);
    lockdep_info();//   如果定义了CONFIG_LOCKDEP宏,那么就打印锁依赖信息,否则什么也不做 
    /*
     * Need to run this when irqs are enabled, because it wants
     * to self-test [hard/soft]-irqs on/off lock inversion bugs
     * too:
     */
    locking_selftest();
#ifdef CONFIG_BLK_DEV_INITRD
    if (initrd_start && !initrd_below_start_ok &&
        page_to_pfn(virt_to_page((void *)initrd_start)) < min_low_pfn) {
        pr_crit("initrd overwritten (0x%08lx < 0x%08lx) - disabling it.\n",
            page_to_pfn(virt_to_page((void *)initrd_start)),
            min_low_pfn);
        initrd_start = 0;
    }
#endif
    page_cgroup_init();
    debug_objects_mem_init();
    kmemleak_init();
    setup_per_cpu_pageset();
    numa_policy_init();
    if (late_time_init)
        late_time_init();
    sched_clock_init();
    calibrate_delay();// 校准延时函数的精确度,实际上是校准loops_per_jiffy全局变量,即每个时钟滴答内CPU执行的指令数
    pidmap_init();//进程号位图初始化,一般用一个錺age来表示所有进程的錺id占用情况  
    anon_vma_init();//  匿名虚拟内存域( anonymous VMA)初始化  
    acpi_early_init();
#ifdef CONFIG_X86
    if (efi_enabled(EFI_RUNTIME_SERVICES))
        efi_enter_virtual_mode();
#endif
#ifdef CONFIG_X86_ESPFIX64
    /* Should be run before the first non-init thread is created */
    init_espfix_bsp();
#endif
    thread_info_cache_init();//获取thread_info缓存空间,大部分构架为空函数(包括ARM  
    cred_init();//任务信用系统初始化。详见:Documentation/credentials.txt  
    fork_init(totalram_pages);//进程创建机制初始化。为内核"task_struct"分配空间,计算最大任务数。  
    proc_caches_init();//初始化进程创建机制所需的其他数据结构,为其申请空间。 
    buffer_init();//块设备读写缓冲区初始化(同时创建"buffer_head"cache用户加速访问)
    key_init();//内核密钥管理系统初始化 
    security_init();//内核安全框架初始化
    dbg_late_init();
     vfs_caches_init (totalram_pages);//虚拟文件系统(VFS)缓存初始化  
    signals_init();//信号管理系统初始化 
    /* rootfs populating might need page-writeback */
    page_writeback_init();// CPU在内存中开辟高速缓存,CPU直接访问高速缓存提以高速度。当cpu更新了高速缓存的数据后,需要定期将高速缓存的数据写回到存储介质中,比如磁盘和flash等。这个函数初始化写回的周期
#ifdef CONFIG_PROC_FS
    proc_root_init();// 如果配置了proc文件系统,则需初始化并加载proc文件系统。在根目录的proc文件夹就是proc文件系统,这个文件系统是ram类型的,记录系统的临时数据,系统关机后不会写回到flash中
#endif
    cgroup_init();//control group正式初始化  
    cpuset_init();//CPUSET初始化。 参考资料:《多核心計算環境—NUMA與CPUSET簡介》
    taskstats_init_early();//任务状态早期初始化函数:为结构体获取高速缓存,并初始化互斥机制。
    delayacct_init();//任务延迟初始化 
    check_bugs();//检查CPU BUG的函数,通过软件规避BUG 
    sfi_init_late();//功能跟踪调试机制初始化,ftrace 是 function trace 的简称 
    if (efi_enabled(EFI_RUNTIME_SERVICES)) {
        efi_late_init();
        efi_free_boot_services();
    }
    ftrace_init();
    /* Do the rest non-__init'ed, we're now alive */
    rest_init();/ / 虽然从名字上来说是剩余的初始化。但是这个函数中的初始化包含了很多的内容,init进程就在这里启动  
}
start_kernel在其最后一个函数rest_init的调用中,会通过kernel_thread来生成一个内核进程,后者则会在新进程环境下调 用kernel_init函数,kernel_init一个让人感兴趣的地方在于它会调用run_init_process来执行根文件系统下的 /sbin/init等程序:  
  1. static int __ref kernel_init(void *unused)
  2. {
  3.         ...
  4.         run_init_process("/sbin/init");
  5.         run_init_process("/etc/init");
  6.         run_init_process("/bin/init");
  7.         run_init_process("/bin/sh");
  8.         panic("No init found. Try passing init= option to kernel. "
  9.               "See Linux Documentation/init.txt for guidance.");
  10. }
run_init_process的核心调用就是do_execve,后者调用do_execve_common来干执行一个新程序的活,在我们这个例子中要执 行的新程序来自/sbin/init,如果用file命令看一下会发现它其实是个ELF格式的动态链接库,而不是那种普通的可执行文件,所以 do_execve_common会负责打开、解析这个文件并找到其可执行入口点,这个过程相当繁琐,我们不妨直接看那些跟我们问题密切相关的代 码,do_execve_common会调用search_binary_handler去查找所谓的binary formats handler,ELF显然是最常见的一种格式:
  1. int search_binary_handler(struct linux_binprm *bprm,struct pt_regs *regs)
  2. {
  3.        ...
  4.        for (try=0; try<2; try++) {
  5.                 read_lock(&binfmt_lock);
  6.                 list_for_each_entry(fmt, &formats, lh) {
  7.                         int (*fn)(struct linux_binprm *, struct pt_regs *) = fmt->load_binary;
  8.                         ...
  9.                         retval = fn(bprm, regs);
  10.                         ...
  11.                }
  12.                ...
  13.        }
  14. }
代码中针对ELF格式的 fmt->load_binary即为load_elf_binary, 所以fn=load_elf_binary, 后续对fn的调用即是调用load_elf_binary,这是个非常长的函数,直到其最后,我们才找到所需要的答案:
  1. static int load_elf_binary(struct linux_binprm *bprm, struct pt_regs *regs)
  2. {
  3.         ...
  4.         start_thread(regs, elf_entry, bprm->p);
  5.         ...
  6. }
上述代码中的elf_entry即为/sbin/init中的执行入口点, bprm->p为应用程序新栈(应该已经在用户空间了),start_thread的实现为:
  1. void
  2. start_thread(struct pt_regs *regs, unsigned long new_ip, unsigned long new_sp)
  3. {
  4.         set_user_gs(regs, 0);
  5.         regs->fs = 0;
  6.         regs->ds = __USER_DS;
  7.         regs->es = __USER_DS;
  8.         regs->ss = __USER_DS;
  9.         regs->cs = __USER_CS;
  10.         regs->ip = new_ip;
  11.         regs->sp = new_sp;
  12.         /*
  13.          * Free the old FP and other extended state
  14.          */
  15.         free_thread_xstate(current);
  16. }
在这里,我们看到了__USER_CS的身影,在x86 64位系统架构下,该值为0x33. start_thread函数最关键的地方在于修改了regs->cs= __USER_CS, regs->ip= new_ip,其实就是人为地改变了系统调用int $0x80指令压入堆栈的下条指令的地址,这样当系统调用结束通过iret指令返回时,代码将从这里的__USER_CS:elf_entry处开始执 行,也就是/sbin/init中的入口点。start_thread的代码与kernel_thread非常神似,不过它不需要象 kernel_thread那样在最后调用do_fork来产生一个task_struct实例出来了,因为目前只需要在当前进程上下文中执行代码,而不是创建一个新进程。关于kernel_thread,我在本版曾有一篇帖子分析过,当时基于的是ARM架构。
所以我们看到,start_kernel在最后调用rest_init,而后者通过对kernel_thread的调用产生一个新进程(pid=1),新进程在其kernel_init()-->init_post()调用链中将通过run_init_process来执行用户空间的/sbin /init,run_init_process的核心是个系统调用,当系统调用返回时代码将从/sbin/init的入口点处开始执行,所以虽然我们知道 post_init中有如下几个run_init_process的调用:
  1. run_init_process("/sbin/init");
  2. run_init_process("/etc/init");
  3. run_init_process("/bin/init");
  4. run_init_process("/bin/sh");
但是只要比如/sbin/init被成功调用,run_init_process中的kernel_execve函数将无法返回,因为它执行int $0x80时压入堆栈中回家的路径被后续的C函数调用链给改写了,这样4个run_init_process只会有一个有机会被成功执行,如果这4个函数都失败 了,那么内核将会panic. 所以内核设计时必须确保用来改写int $0x80压入栈中的cs和ip的start_thread函数之后不会再有其他额外的代码导致整个调用链的失败,否则代码将执行非预期的指令,内核进入不稳定状态。
至此,init进程成功启动。
参考资料:
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值