深入理解进程切换

本文主要分析 Linux 5.4.34 版本内核中进程切换的基本操作与基本代码框架。

在 Linux 内核中,进程切换的核心函数是上下文切换函数 content_switch。该函数位于 Linux 内核源码目录下的 kernel/sched/core.c 中,代码如下:

static __always_inline struct rq *
context_switch(struct rq *rq, struct task_struct *prev,
         struct task_struct *next, struct rq_flags *rf)
{
  prepare_task_switch(rq, prev, next);

  /*
   * For paravirt, this is coupled with an exit in switch_to to
   * combine the page table reload and the switch backend into
   * one hypercall.
   */
  arch_start_context_switch(prev);

  /*
   * kernel -> kernel   lazy + transfer active
   *   user -> kernel   lazy + mmgrab() active
   *
   * kernel ->   user   switch + mmdrop() active
   *   user ->   user   switch
   */
  if (!next->mm) {                                // to kernel
    enter_lazy_tlb(prev->active_mm, next);

    next->active_mm = prev->active_mm;
    if (prev->mm)                           // from user
      mmgrab(prev->active_mm);
    else
      prev->active_mm = NULL;
  } else {                                        // to user
    membarrier_switch_mm(rq, prev->active_mm, next->mm);
    /*
     * sys_membarrier() requires an smp_mb() between setting
     * rq->curr / membarrier_switch_mm() and returning to userspace.
     *
     * The below provides this either through switch_mm(), or in
     * case 'prev->active_mm == next->mm' through
     * finish_task_switch()'s mmdrop().
     */
    switch_mm_irqs_off(prev->active_mm, next->mm, next);

    if (!prev->mm) {                        // from kernel
      /* will mmdrop() in finish_task_switch(). */
      rq->prev_mm = prev->active_mm;
      prev->active_mm = NULL;
    }
  }

  rq->clock_update_flags &= ~(RQCF_ACT_SKIP|RQCF_REQ_SKIP);

  prepare_lock_switch(rq, next, rf);

  /* Here we just switch the register state and the stack. */
  switch_to(prev, next, prev);
  barrier();

  return finish_task_switch(prev);
}

content_switch 函数有三个参数:rq、prev、next。其中 rq 指向本次进程切换发生的 running queue;prev 和 next 分别指向切换前后进程的进程描述符。

可把 context_switch 函数具体分为几个部分。

1、prepare_task_switch( ) 与 finish_task_switch( )

在进程切换之前,执行调用的每个体系结构都必须与定义的 prepare_task_switch 函数挂钩。内核会执行与体系结构相关的一些调测指令, 为切换做事前准备。

static inline void
prepare_task_switch(struct rq *rq, struct task_struct *prev,
            struct task_struct *next)
{
    sched_info_switch(rq, prev, next);
    perf_event_task_sched_out(prev, next);
    fire_sched_out_preempt_notifiers(prev, next);
    prepare_lock_switch(rq, next);
    prepare_arch_switch(next);
}

上下文切换完成后,必须调用 finish_task_switch 函数。它与 prepare_task_switch 函数一定要成对出现。

2、arch_start_context_switch( )

该函数给各个体系结构开始上下文切换工作提供了入口,不同体系结构的实现不同。

3、进程地址空间切换

if (!next->mm) {
    enter_lazy_tlb(prev->active_mm, next);

    next->active_mm = prev->active_mm;
    if (prev->mm)
        mmgrab(prev->active_mm);
    else
        prev->active_mm = NULL;
} 

else {
    membarrier_switch_mm(rq, prev->active_mm, next->mm);

    switch_mm_irqs_off(prev->active_mm, next->mm, next);

    if (!prev->mm) {
        rq->prev_mm = prev->active_mm;
        prev->active_mm = NULL;
    }
}

在主体部分(if - else部分)实现了进程地址空间切换过程。其中 prev 是进程切换之前的进程,next 是进程切换后要执行的进程。next->mm 指向要执行进程的地址空间描述符,prev->mm 指向 当前进程的正在使用的地址空间描述符(active_mm)。

对于用户级进程来说,其进程描述符的 mm 和 active_mm 相同,都是指向其进程地址空间。而对于内核级线程而言,其 mm 成员为 NULL(内核级线程没有进程地址空间)。但是内核级线程执行的时候,总需有一个进程地址空间,而 active_mm 就是指向它借用的那个进程地址空间。

因此,我们可以通过判断 next 的 mm 是否为空来判断它是一个用户级进程还是内核级线程。

1)如果 next 为内核级线程,那么我们需要调用体系结构相关的函数 enter_lazy_tlb,标识该 CPU 核进入 lazy tlb mode(减少切换上下文时不必要的 TLB 更新,CPU 进入该模式后不对 TLB 进行更新)。

内核级线程借用用户级进程的地址空间运行。

如果之前的进程是用户级进程,则需要将这个被借用的地址空间的引用计数加 1,如果该地址空间对应的用户级进程退出,则系统仍需等到其引用计数为 0(不再有内核级线程借用它)时才能将其销毁;如果之前的进程是内核级线程,则把其 active_mm 清空,结束其对于该地址空间的借用。

2)如果 next->mm 不为空,则要切换的进程为用户级进程。

首先调用 membarrier_switch_mm 函数建立一个内存屏障,来保证前后两个进程访问内存空间的先后顺序(相当于一种进程同步机制),避免在访存过程中发生访存错误。

使用 switch_mm_irqs_off 函数来切换 mm_struct。

最后,如果之前的进程是内核级线程,还需设置 rq->prev_mm 用于后续清除引用计数,并执行 prev->active_mm = NULL 解除对 active_mm 的借用。

4、switch_to( )

执行环境的切换是在 switch_to 函数中完成的。它保存原进程所有的寄存器信息,恢复新进程所有的寄存器信息,执行新的进程。swtich_to 函数会进一步调用 __switch_to_asm。

ENTRY(__switch_to_asm)
  UNWIND_HINT_FUNC
  /*
   * Save callee-saved registers
   * This must match the order in inactive_task_frame
   */
  pushq  %rbp
  pushq  %rbx
  pushq  %r12
  pushq  %r13
  pushq  %r14
  pushq  %r15

  /* switch stack */
  movq  %rsp, TASK_threadsp(%rdi) // 保存旧进程的栈顶
  movq  TASK_threadsp(%rsi), %rsp // 恢复新进程的栈顶

  /* restore callee-saved registers */
  popq  %r15
  popq  %r14
  popq  %r13
  popq  %r12
  popq  %rbx
  popq  %rbp

  jmp  __switch_to
END(__switch_to_asm)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值