目录
一、实验简介
Linux 是一个多任务操作系统,它能支持远大于 CPU 数量的任务同时运行。但实际上同一时刻只会有 CPU 数量的进程在运行,等 CPU 时间片到了之后,进程调度器就会把 CPU 资源分配给其他进程。在这个过程中就会涉及到进程之间的切换,这时候就需要将当前进程的上下文信息保存下来,随后加载被调度进程的上下文信息,这就是上下文切换。这里所说的上下文信息,既包括虚拟内存、栈、全局变量等用户态的资源,也包括内核堆栈、寄存器等内核态的资源。
本文以arm64和x86为例,分析Linux内核中进程切换的具体操作。
二、实验内容
1. 进程切换的时机
一般来说,进程切换有以下几个时机:
- 某个进程时间片耗尽,会被系统挂起,切换到其他等待 CPU 的进程。
- 进程所需系统资源不足,需要等到资源满足时才可运行,此时会被挂起,其他进程会被调度。
- 进程通过 sleep 方法主动挂起,其他进程就有机会被调度。
- 有更高优先级的进程,当前进程会被挂起,高优先级进程会被调度。
- 硬件中断时,CPU 上的进程会被中断挂起,转而执行内核中的中断服务程序。
当发生如上几种情况的时候,就会发生进程调度,进而发生进程上下文切换。
2. 执行进程切换
在中断处理程序中,会直接调用schedule()函数实现进程调度:
- 首先,schedule()函数会调用next = pick_next_task(rq, prev);,所做的工作就是根据调度算法策略,选取要执行的下一个进程。
- 其次,根据调度策略得到要执行的进程后,调用context_switch(rq, prev, next);,完成进程上下文切换。其中,最关键的switch_to(prev,next, last):切换堆栈和寄存器的状态。
2.1 context_switch进程上下文切换
context_switch其实是一个分配器,他会调用所需的特定体系结构的方法:
- 调用switch_mm(),把虚拟内存从一个进程映射切换到新进程中。
switch_mm更换通过task_struct->mm描述的内存管理上下文,该工作的细节取决于处理器,主要包括加载页表,刷出地址转换后备缓冲器(部分或者全部),向内存管理单元(MMU)提供新的信息。 - 调用switch_to(),从上一个进程的处理器状态切换到新进程的处理器状态。这包括保存、恢复栈信息和寄存器信息。
switch_to切换处理器寄存器的呢内容和内核栈(虚拟地址空间的用户部分已经通过switch_mm变更,其中也包括了用户状态下的栈,因此switch_to不需要变更用户栈,只需变更内核栈),此段代码严重依赖于体系结构,且代码通常都是用汇编语言编写。
context_switch函数建立next进程的地址空间。进程描述符的active_mm字段指向进程所使用的内存描述符,而mm字段指向进程所拥有的内存描述符。对于一般的进程,这两个字段有相同的地址,但是,内核线程没有它自己的地址空间而且它的 mm字段总是被设置为 NULL。
context_switch( )函数保证:如果next是一个内核线程, 它使用prev所使用的地址空间。
由于不同架构下地址映射的机制有所区别,而寄存器等信息也是依赖于架构的,因此switch_mm和switch_to两个函数均是体系结构相关的。
context_switch定义在kernel/sched/core.c中,如下所示:
/*
* context_switch - switch to the new MM and the new thread's register state.
*/
static __always_inline struct rq *
context_switch(struct rq *rq, struct task_struct *prev,
struct task_struct *next, struct rq_flags *rf)
{
prepare_task_switch(rq, prev, next);
/*
* For paravirt, this is coupled with an exit in switch_to to
* combine the page table reload and the switch backend into
* one hypercall.
*/
arch_start_context_switch(prev);
/*
* kernel -> kernel lazy + transfer active
* user -> kernel lazy + mmgrab() active
*
* kernel -> user switch + mmdrop() active
* user -> user switch
*/
if (!next->mm) { // to kernel
enter_lazy_tlb(prev->active_mm, next);
next->active_mm = prev->active_mm;
if (prev->mm) // from user
mmgrab(prev->active_mm);
else
prev->active_mm = NULL;
} else { // to user
membarrier_switch_mm(rq, prev->active_mm, next->mm);
/*
* sys_membarrier() requires an smp_mb() between setting
* rq->curr / membarrier_switch_mm() and returning to userspace.
*
* The below provides this either through switch_mm(), or in
* case 'prev->active_mm == next->mm' through
* finish_task_switch()'s mmdrop().
*/
switch_mm_irqs_off(prev->active_mm, next->mm, next);
if (!prev->mm) { // from kernel
/* will mmdrop() in finish_task_switch(). */
rq->prev_mm = prev->active_mm;
prev->active_mm = NULL;
}
}
rq->clock_update_flags &= ~(RQCF_ACT_SKIP|RQCF_REQ_SKIP);
prepare_lock_switch(rq, next, rf);
/* Here we just switch the register state and the stack. */
switch_to(prev, next, prev);
barrier();
return finish_task_switch(prev);
}
context_switch函数是用来完成任务上下文切换的,切换cr3,栈顶寄存器。下面是该函数主要完成的工作:
-
通过 prepare_task_switch() 进行准备,设置 prev 和 next 的一些状态,例如 prev 的状态设置为 TASK_RUNNING,同时更新 rq 的 curr 和 next 任务的时间戳等。
-
在切换前,调用 arch_start_context_switch(prev),切换前的准备工作,包括更新上下文寄存器、设置栈等。
-
根据 prev 和 next 任务所属的内存空间类型进行处理:
如果 next 是内核空间任务,调用 enter_lazy_tlb() 进行懒惰处理,同时将 next 的 active_mm 设置为 prev 的 active_mm,并增加 prev 的 active_mm 的引用计数。如果 next 是用户空间任务,则需要进行内存空间切换。如果 prev 任务属于内核空间,将 prev 的 active_mm 设置为 NULL,同时记录 prev 的 active_mm 以便在 finish_task_switch() 中释放,而对于 prev 属于用户空间的任务,则需要调用 mmgrab() 来增加 prev 的 active_mm 的引用计数。
-
调用 switch_mm_irqs_off() 进行内存空间切换,更新 prev 和 next 的内存空间等信息。在arm64架构中,实际上调用的是switch_mm函数
-
如果 prev 是内核空间任务,则记录其 active_mm 以便在 finish_task_switch() 中释放。
-
调用 prepare_lock_switch() 对 prev 和 next 进行加锁和解锁。
-
调用 switch_to() 进行寄存器和栈切换,将控制权转移到 next 任务中。
-
调用 finish_task_switch() 完成任务切换的一些收尾工作,例如释放 prev 的内存空间引用计数等,并返回 rq。
2.2 ARM64架构中的switch_to函数分析
我们重点关注switch_to函数的工作流程,switch_to函数完成了线程的硬件上下文切换。当完成了硬件上下文切换后。通过还原栈顶的寄存器后,保存在栈中的局部变量,因为栈的切换变为当前的运行线程的的栈。当线程栈改变后对应的局部变量地址也改变为当前线程原来的局部变量。所以当最后栈顶变为需切换的线程的栈顶时。代码运行的路径也变为新的线程代码路径和数据。switch_to函数在arm64架构下的定义如下:
#define switch_to(prev, next, last) \
do { \
((last) = __switch_to((prev), (next))); \
} while (0)
在ARM64体系结构下使用的swtich_to还是通用代码,在include/asm-generic/switch_to.h文件中定义,而其中调用的__switch_to则是体系结构相关的代码了。 ARM64体系结构下__switch_to的实现见arch/arm64/kernel/process.c,其中cpu_switch_to是我们特别关心的进程的CPU上下文切换的关键代码。
/*
* Thread switching.
*/
__notrace_funcgraph struct task_struct *__switch_to(struct task_struct *prev,
struct task_struct *next)
{
struct task_struct *last;
fpsimd_thread_switch(next);
tls_thread_switch(next);
hw_breakpoint_thread_switch(next);
contextidr_thread_switch(next);
entry_task_switch(next);
uao_thread_switch(next);
ptrauth_thread_switch(next);
ssbs_thread_switch(next);
/*
* Complete any pending TLB or cache maintenance on this CPU in case
* the thread migrates to a different CPU.
* This full barrier is also required by the membarrier system
* call.
*/
dsb(ish);
/* the actual thread switch */
last = cpu_switch_to(prev, next);
return last;
}
cpu_switch_to函数实际上是汇编代码,具体实现如下:
ENTRY(cpu_switch_to)
mov x10, #THREAD_CPU_CONTEXT // 寄存器x10存放thread.cpu_context偏移,与进程task_struct地址相加后即可获得该进程的cpu_context
add x8, x0, x10 // x0与偏移量相加后存入x8,获取旧进程cpu_context的地址
mov x9, sp // 将栈顶sp存入x9,以备后续保存
// 保存x19~x28寄存器的值,每条指令执行完毕后x8的值会自动+16,以便保存后续寄存器值
stp x19, x20, [x8], #16
stp x21, x22, [x8], #16
stp x23, x24, [x8], #16
stp x25, x26, [x8], #16
stp x27, x28, [x8], #16
stp x29, x9, [x8], #16 // 保存x29(栈基址)与x9(栈顶sp)
str lr, [x8] // 保存寄存器LR,该寄存器存放了cpu_switch_to函数的返回地址
add x8, x1, x10 // x1与偏移量相加后存入x8,获取新进程cpu_context的地址
// 恢复x19~x28寄存器的值
ldp x19, x20, [x8], #16
ldp x21, x22, [x8], #16
ldp x23, x24, [x8], #16
ldp x25, x26, [x8], #16
ldp x27, x28, [x8], #16
ldp x29, x9, [x8], #16 // 恢复x29(栈基址)与x9(栈顶sp)
ldr lr, [x8] // 恢复寄存器LR,这样函数cpu_switch_to返回后就会从新进程上次被中断的位置处继续执行
mov sp, x9 // 从x9处恢复sp的值
msr sp_el0, x1 // 将新进程进程task_struct地址放入sp_el0
ret
ENDPROC(cpu_switch_to)
NOKPROBE(cpu_switch_to)
arm64 下的 cpu_switch_to 有两个参数,分别存放在寄存器 x0 与 x1 中,x0 存放上一个进程的进程描述符的地址,x1 存放下一个进程的进程描述符的地址。在代码中,函数并没有显式保存和恢复程序计数器 PC 的值,而是采用了函数调用堆栈的特性才完成了这一操作。通过上述代码,便完成了寄存器和栈的切换。
2.3 X86架构中的switch_to函数分析
进程关键上下文的切换swtich_to,见arch/x86/include/asm/switch_to.h。其中的__switch_to_asm是一段汇编代码,见arch/x86/entry/entry_64.S:
ENTRY(__switch_to_asm)
UNWIND_HINT_FUNC
/*
* Save callee-saved registers
* This must match the order in inactive_task_frame
*/
pushq %rbp
pushq %rbx
pushq %r12
pushq %r13
pushq %r14
pushq %r15
/* switch stack */
movq %rsp, TASK_threadsp(%rdi) // 保存旧进程的栈顶
movq TASK_threadsp(%rsi), %rsp // 恢复新进程的栈顶
/* restore callee-saved registers */
popq %r15
popq %r14
popq %r13
popq %r12
popq %rbx
popq %rbp
jmp __switch_to
END(__switch_to_asm)
这段汇编代码有内核堆栈栈顶指针RSP寄存器的切换,但是并没有显式的完成RIP寄存器的切换。
实际上__switch_to_asm是在C代码中调用的,也就是使用call指令,而这段汇编的结尾是jmp __switch_to,__switch_to函数是C代码最后有个return,也就是ret指令。将__switch_to_asm和__switch_to结合起来,正好是call指令和ret指令的配对出现。call指令压栈RIP寄存器到进程切换前的prev进程内核堆栈;而ret指令出栈存入RIP寄存器的是进程切换之后的next进程的内核堆栈栈顶数据。
三、实验总结
通过上述分析,我们已经得到了在arm64架构下进程切换过程中发生的主要操作:
__schedule // kernel/sched/core.c
->context_switch
->switch_mm_irqs_off //进程地址空间切换
->switch_to //处理器状态切换
通过这一过程,Linux内核便完成了进程的切换。实际上在不同的体系结构下,只有switch_to函数是有较大差异的,因为不同的体系结构下的寄存器和堆栈有所不同,涉及具体的操作自然也是不同的,其他的函数基本上是通用的。
参考资料:
Linux进程管理
Linux进程上下文切换过程context_switch详解
深入理解Linux内核进程上下文切换
深入Linux内核(进程篇)—进程切换之ARM体系架构