linux 进程调度switch_to宏浅析+系统执行过程总结___switch

本文链接：https://blog.csdn.net/titer1/article/details/45289159

刘柳 + 原创作品转载请注明出处 + 《Linux内核分析》MOOC课程+http://mooc.study.163.com/course/USTC-1000029000+titer2008@gmail.com

进程的调度时机与进程的切换

操作系统原理中介绍了大量进程调度算法，这些算法从实现的角度看仅仅是从运行队列中选择一个新进程，选择的过程中运用了不同的策略而已。
对于理解操作系统的工作机制，反而是进程的调度时机与进程的切换机制更为关键。

调度时机背景

不同类型的进程有不同的调度需求
第一种分类：
- I/O-bound
  - 频繁的进行I/O
  - 通常会花费很多时间等待I/O操作的完成
- CPU-bound
  - 计算密集型
  - 需要大量的CPU时间进行运算
第二种分类
- 批处理进程（batch process）
  - 不必与用户交互，通常在后台运行
  - 不必很快响应
  - 典型的批处理程序：编译程序、科学计算
- 实时进程（real-time process）
  - 有实时需求，不应被低优先级的进程阻塞
  - 响应时间要短、要稳定
  - 典型的实时进程：视频/音频、机械控制等
- 交互式进程（interactive process）
  - 需要经常与用户交互，因此要花很多时间等待用户输入操作
  - 响应时间要快，平均延迟要低于50~150ms
  - 典型的交互式程序：shell、文本编辑程序、图形应用程序等

Linux中的进程调度

Linux既支持普通的分时进程，也支持实时进程
Linux中的调度是多种调度策略和调度算法的混合。
什么是调度策略？
- 是一组规则，它们决定什么时候以怎样的方式选择一个新进程运行
Linux的调度基于分时和优先级
- 随着版本的变化，分时技术在不断变化
Linux的进程根据优先级排队
- 根据特定的算法计算出进程的优先级，用一个值表示
- 这个值表示把进程如何适当的分配给CPU
Linux中进程的优先级是动态的
- 调度程序会根据进程的行为周期性的调整进程的优先级
  - 较长时间未分配到CPU的进程，通常↑
  - 已经在CPU上运行了较长时间的进程，通常↓

scheudle 函数

schedule函数实现调度
目的：在运行队列中找到一个进程，把CPU分配给它
调用方法：
- 直接调用，如sleep_on
- 松散调用，根据need_resched标记

进程调度的时机（重点）

中断处理过程（包括时钟中断、I/O中断、系统调用和异常）中，直接调用schedule()，或者返回用户态时根据 need_resched 标记调用schedule()；
内核线程可以直接调用schedule()进行进程切换，也可以在中断处理过程中进行调度，也就是说内核线程作为一类的特殊的进程可以主动调度，也可以被动调度；
用户态进程无法实现主动调度，仅能通过陷入内核态后的某个时机点进行调度，即在中断处理过程中进行调度。

用户态被动调度
内核线程只有内核态没有用户态的特殊进程，无需系统调用。

插曲：张银奎说程序进入内核态犹如人睡觉啦。这个笑话很有意思

进程的切换

为了控制进程的执行，内核必须有能力挂起正在CPU上执行的进程，并恢复以前挂起的某个进程的执行，这叫做进程切换、任务切换、上下文切换；

挂起正在CPU上执行的进程，与中断时保存现场是不同的，中断前后是在同一个进程上下文中，只是由用户态转向内核态执行；

区别是否是同一个进程

进程上下文包含了进程执行需要的所有信息
- 用户地址空间：包括程序代码，数据，用户堆栈等
- 控制信息：进程描述符，内核堆栈等
- 硬件上下文（注意中断也要保存硬件上下文只是保存的方法不同）

还有硬件上下文

schedule()函数选择一个新的进程来运行，并调用context_switch进行上下文的切换，这个宏调用switch_to来进行关键上下文切换
- next = pick_next_task(rq, prev);//进程调度算法都封装这个函数内部
- context_switch(rq, prev, next);//进程上下文切换
- switch_to利用了prev和next两个参数：prev指向当前进程，next指向被调度的进程

进程代码切换代码分析（重点）

第一节第二堂课

位置：kernel/sched/core.c

如果想看到这里面详细的值，可以使用gcc -O0试试

以下是scheudle代码的展开结构图（感谢tldp供图），从中可以得到
switch_to的具体调用位置和具体汇编内容的分工。

|schedule
   |do_softirq // manages post-IRQ work
   |for each task
      |calculate counter
   |prepare_to__switch // does anything
   |switch_mm // change Memory context (change CR3 value)
   |switch_to (assembler)
      |SAVE ESP
      |RESTORE future_ESP
      |SAVE EIP
      |push future_EIP *** push parameter as we did a call 
         |jmp __switch_to (it does some TSS work) 
         |__switch_to()
          ..
         |ret *** ret from call using future_EIP in place of call address
      new_task

从进程的角度看，我们可以得到如下的控制流程图，大家可以从tldp这张图里面知道
两个不同进程如何进行切换的。

U S E R   M O D E                 K E R N E L     M O D E
 |          |     |          |       |          |     |          |
 |          |     |          | Timer |          |     |          |
 |          |     |  Normal  |  IRQ  |          |     |          |
 |          |     |   Exec   |------>|Timer_Int.|     |          |
 |          |     |     |    |       | ..       |     |          |
 |          |     |    \|/   |       |schedule()|     | Task1 Ret|
 |          |     |          |       |_switch_to|<--  |  Address |
 |__________|     |__________|       |          |  |  |          |
                                     |          |  |S |          | 
Task1 Data/Stack   Task1 Code        |          |  |w |          |
                                     |          | T|i |          |
                                     |          | a|t |          |
 |          |     |          |       |          | s|c |          |
 |          |     |          | Timer |          | k|h |          |
 |          |     |  Normal  |  IRQ  |          |  |i |          | 
 |          |     |   Exec   |------>|Timer_Int.|  |n |          |
 |          |     |     |    |       | ..       |  |g |          |
 |          |     |    \|/   |       |schedule()|  |  | Task2 Ret|
 |          |     |          |       |_switch_to|<--  |  Address |
 |__________|     |__________|       |__________|     |__________|

Task2 Data/Stack   Task2 Code        Kernel Code  Kernel Data/Stack

关于switch_to 中esp eip 切换的认识

- esp 先切换
- eip 再切换
- 利用push eip +call 起到了类似的call 作用，但是灵活修改了eip 。
/*这点很牛*/

代码情景分析+gdb动手实践

欢迎大家到我的博客留言，希望成为内核入门学习的干货店。
http://blog.csdn.net/titer1/

#define switch_to(prev, next, last)                                     \
do {                                                                    \
        /*                                                              \
         * Context-switching clobbers all registers, so we clobber      \
         * them explicitly, via unused output variables.                \
         * (EAX and EBP is not listed because EBP is saved/restored     \
         * explicitly for wchan access and EAX is the return value of   \
         * __switch_to())                                               \
         */                                                             \
        unsigned long ebx, ecx, edx, esi, edi;                          \
                                                                        \
        asm volatile("pushfl\n\t"               /* save    flags */     \
                     "pushl %%ebp\n\t"          /* save    EBP   */     \
                     "movl %%esp,%[prev_sp]\n\t"        /* save    ESP   */ \
                     "movl %[next_sp],%%esp\n\t"        /* restore ESP   */ \
                     "movl $1f,%[prev_ip]\n\t"  /* save    EIP   */     \
                     "pushl %[next_ip]\n\t"     /* restore EIP   */     \
                     "jmp __switch_to\n"        /* regparm call  */     \
                     "1:\t"                                             \
                     "popl %%ebp\n\t"           /* restore EBP   */     \
                     "popfl\n"                  /* restore flags */     \
                                                                        \
                     /* output parameters */                            \
                     : [prev_sp] "=m" (prev->thread.sp),                \
                       [prev_ip] "=m" (prev->thread.ip),                \
                       "=a" (last),                                     \
                                                                        \
                       /* clobbered output registers: */                \
                       "=b" (ebx), "=c" (ecx), "=d" (edx),              \
                       "=S" (esi), "=D" (edi)                           \
                                                                        \
                       /* input parameters: */                          \
                     : [next_sp]  "m" (next->thread.sp),                \
                       [next_ip]  "m" (next->thread.ip),                \
                                                                        \
                       /* regparm parameters for __switch_to(): */      \
                       [prev]     "a" (prev),                           \
                       [next]     "d" (next));                          \
} while (0)

仅仅演示swith_to堆栈变化，
要知道哪些地方典型的调用schedule,待下一次展开
鉴于switch_to是一个宏，我们使用下面的方法设置断点：

b kernel/sched/core.c:2373

整个调试过程动态库，原文3M多，请点击这里

感谢hchunhui供堆栈图，

他的博客可以从这里访问：
http://home.ustc.edu.cn/~hchunhui/linux_sched.html

1 switch_to之前

2 切换堆栈之前

3 切换堆栈之后

4 push和Jump操作之后

5 _switch_to汇编返回

6 switch_to完成

Linux系统的一般执行过程

位置：教程第二节第一讲

最一般的情况：正在运行的用户态进程X切换到运行用户态进程Y的过程

在运行的用户态进程X 发生中断，硬件完成以下：
- save cs:eip/esp/eflags(current) to kernel stack
- load cs:eip(entry of a specific ISR) and ss:esp(point to kernel stack).
SAVE_ALL //保存现场
中断处理过程中或中断返回前调用了schedule()，其中的switch_to做了关键的进程上下文切换
标号1之后开始运行用户态进程Y(这里Y曾经通过以上步骤被切换出去过因此可以从标号1继续执行)

已经变成Y进程上下文，真是 庄周做梦

restore_all //恢复现场
iret - pop cs:eip/ss:esp/eflags from kernel stack
继续运行用户态进程Y

进程间的几种特殊情况

先普通 再特殊

通过中断处理过程中的调度时机，用户态进程与内核线程之间互相切换和内核线程之间互相切换，与最一般的情况非常类似，只是内核线程运行过程中发生中断没有进程用户态和内核态的转换；

2个内核线程之间切换，cs段没有改变我
用户进程和内核线程间切换

内核线程主动调用schedule()，只有进程上下文的切换，没有发生中断上下文的切换，与最一般的情况略简略；

没有发生中断，也就是没有int 指令和iret指令喔，

创建子进程的系统调用在子进程中的执行起点及返回用户态，如fork；

pre :parent
next: child
so next_ip =ret_from_fork ,不是switch_to中的标号1喔

加载一个新的可执行程序后返回到用户态的情况，如execve；

pre：parent
next:execve产生的进程（记住，execve也是系统调用）
联想start_thread(execve内部）,里面有修改进程上下文的内容喔，所以以新的中断上下文返回

开眼界内核舞女

dancing girls vs Taxi girl

0-3g
3g-4g 内核态
如果每个进程都有自己的内核栈，切换也是一门学问

原因是：内核态下(3G以上空间），各进程的代码段/堆栈段是可以统一访问的
借用老师的话：内核是taxi

内核是什么？
内核是各种中断处理过程和内核线程的集合！ 精炼啊 大道至简 道法自然

Linux操作系统架构和系统执行过程概览

操作系统的基本概念

♦ 任何计算机系统都包含一个基本的程序集合，称为操作系统。
– 内核（进程管理，进程调度，进程间通讯机制，内存管理，中断异常处理，文件系统，I/O 系统，网络部分）
– 其他程序（例如函数库、shell程序、系统程序等等）
♦ 操作系统的目的
– 与硬件交互，管理所有的硬件资源
– 为用户程序（应用程序）提供一个良好的执行环境