本文主要分析 Linux 5.4.34 版本内核中进程切换的基本操作与基本代码框架。
在 Linux 内核中,进程切换的核心函数是上下文切换函数 content_switch。该函数位于 Linux 内核源码目录下的 kernel/sched/core.c 中,代码如下:
static __always_inline struct rq *
context_switch(struct rq *rq, struct task_struct *prev,
struct task_struct *next, struct rq_flags *rf)
{
prepare_task_switch(rq, prev, next);
/*
* For paravirt, this is coupled with an exit in switch_to to
* combine the page table reload and the switch backend into
* one hypercall.
*/
arch_start_context_switch(prev);
/*
* kernel -> kernel lazy + transfer active
* user -> kernel lazy + mmgrab() active
*
* kernel -> user switch + mmdrop() active
* user -> user switch
*/
if (!next->mm) { // to kernel
enter_lazy_tlb(prev->active_mm, next);
next->active_mm = prev->active_mm;
if (prev->mm) // from user
mmgrab(prev->active_mm);
else
prev->active_mm = NULL;
} else { // to user
membarrier_switch_mm(rq, prev->active_mm, next->mm);
/*
* sys_membarrier() requires an smp_mb() between setting
* rq->curr / membarrier_switch_mm() and returning to userspace.
*
* The below provides this either through switch_mm(), or in
* case 'prev->active_mm == next->mm' through
* finish_task_switch()'s mmdrop().
*/
switch_mm_irqs_off(prev->active_mm, next->mm, next);
if (!prev->mm) { // from kernel
/* will mmdrop() in finish_task_switch(). */
rq->prev_mm = prev->active_mm;
prev->active_mm = NULL;
}
}
rq->clock_update_flags &= ~(RQCF_ACT_SKIP|RQCF_REQ_SKIP);
prepare_lock_switch(rq, next, rf);
/* Here we just switch the register state and the stack. */
switch_to(prev, next, prev);
barrier();
return finish_task_switch(prev);
}
content_switch 函数有三个参数:rq、prev、next。其中 rq 指向本次进程切换发生的 running queue;prev 和 next 分别指向切换前后进程的进程描述符。
可把 context_switch 函数具体分为几个部分。
1、prepare_task_switch( ) 与 finish_task_switch( )
在进程切换之前,执行调用的每个体系结构都必须与定义的 prepare_task_switch 函数挂钩。内核会执行与体系结构相关的一些调测指令, 为切换做事前准备。
static inline void
prepare_task_switch(struct rq *rq, struct task_struct *prev,
struct task_struct *next)
{
sched_info_switch(rq, prev, next);
perf_event_task_sched_out(prev, next);
fire_sched_out_preempt_notifiers(prev, next);
prepare_lock_switch(rq, next);
prepare_arch_switch(next);
}
上下文切换完成后,必须调用 finish_task_switch 函数。它与 prepare_task_switch 函数一定要成对出现。
2、arch_start_context_switch( )
该函数给各个体系结构开始上下文切换工作提供了入口,不同体系结构的实现不同。
3、进程地址空间切换
if (!next->mm) {
enter_lazy_tlb(prev->active_mm, next);
next->active_mm = prev->active_mm;
if (prev->mm)
mmgrab(prev->active_mm);
else
prev->active_mm = NULL;
}
else {
membarrier_switch_mm(rq, prev->active_mm, next->mm);
switch_mm_irqs_off(prev->active_mm, next->mm, next);
if (!prev->mm) {
rq->prev_mm = prev->active_mm;
prev->active_mm = NULL;
}
}
在主体部分(if - else部分)实现了进程地址空间切换过程。其中 prev 是进程切换之前的进程,next 是进程切换后要执行的进程。next->mm 指向要执行进程的地址空间描述符,prev->mm 指向 当前进程的正在使用的地址空间描述符(active_mm)。
对于用户级进程来说,其进程描述符的 mm 和 active_mm 相同,都是指向其进程地址空间。而对于内核级线程而言,其 mm 成员为 NULL(内核级线程没有进程地址空间)。但是内核级线程执行的时候,总需有一个进程地址空间,而 active_mm 就是指向它借用的那个进程地址空间。
因此,我们可以通过判断 next 的 mm 是否为空来判断它是一个用户级进程还是内核级线程。
1)如果 next 为内核级线程,那么我们需要调用体系结构相关的函数 enter_lazy_tlb,标识该 CPU 核进入 lazy tlb mode(减少切换上下文时不必要的 TLB 更新,CPU 进入该模式后不对 TLB 进行更新)。
内核级线程借用用户级进程的地址空间运行。
如果之前的进程是用户级进程,则需要将这个被借用的地址空间的引用计数加 1,如果该地址空间对应的用户级进程退出,则系统仍需等到其引用计数为 0(不再有内核级线程借用它)时才能将其销毁;如果之前的进程是内核级线程,则把其 active_mm 清空,结束其对于该地址空间的借用。
2)如果 next->mm 不为空,则要切换的进程为用户级进程。
首先调用 membarrier_switch_mm 函数建立一个内存屏障,来保证前后两个进程访问内存空间的先后顺序(相当于一种进程同步机制),避免在访存过程中发生访存错误。
使用 switch_mm_irqs_off 函数来切换 mm_struct。
最后,如果之前的进程是内核级线程,还需设置 rq->prev_mm 用于后续清除引用计数,并执行 prev->active_mm = NULL 解除对 active_mm 的借用。
4、switch_to( )
执行环境的切换是在 switch_to 函数中完成的。它保存原进程所有的寄存器信息,恢复新进程所有的寄存器信息,执行新的进程。swtich_to 函数会进一步调用 __switch_to_asm。
ENTRY(__switch_to_asm)
UNWIND_HINT_FUNC
/*
* Save callee-saved registers
* This must match the order in inactive_task_frame
*/
pushq %rbp
pushq %rbx
pushq %r12
pushq %r13
pushq %r14
pushq %r15
/* switch stack */
movq %rsp, TASK_threadsp(%rdi) // 保存旧进程的栈顶
movq TASK_threadsp(%rsi), %rsp // 恢复新进程的栈顶
/* restore callee-saved registers */
popq %r15
popq %r14
popq %r13
popq %r12
popq %rbx
popq %rbp
jmp __switch_to
END(__switch_to_asm)