linux中的PCB(进程控制块) task_struct(进程描述符)

进程就是处于执行期的程序,线程是进程中的活动的对象。每个线程都拥有一个独立的程序计数器(PC)、栈、和一组寄存器。内核调用的对象是线程而不是进程。
在Linux中,线程的实现非常独特,从内核的角度讲,linux并没有线程的概念。Linux把所有的线程都当成进程来实现,内核没有准备特别的调度算法或是定义特别的数据结构来表征线程。相反,线程仅仅被视为一个与其他进程共享某些资源的进程,每个线程都拥有自己的task_struct。进程和线程都是通过系统调用clone()创建的,只不过传给系统调用的参数不同而已,我们知道同一进程下的不同线程是共享一些资源的,因此这些参数就设置了需要共享的资源,参数如下所示。
在这里插入图片描述
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210627182054432.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM0ODg4MDM2,size_16,color_FFFFFF,t_70

进程描述符 task_struct

     内核把进程的列表存放在叫做任务队列的双向循环链表中。链表中每一项都是task_struct类型,称为进程描述符。task_struct结构相对较大,在32位机器上大约有1.7KB。进程描述符中包含的数据能完整地描述一个正在执行的程序:它打开的文件,进程的地址空间,挂起的信号,进程的状态,还有其他更多信息。
在x86上,Linux通过slab分配器动态生成task_struct结构,所以只需在内核栈的栈尾创建一个新的结构struct thread_info。结构中的task域存放的是指向该任务实际task_struct的指针(因为x86上没有多余的寄存器,寄存器太少了。如果寄存器足够的话可以将task_struct保存在寄存器中)。
在这里插入图片描述
进程描述符中的内容

进程描述符task_struct包含了进程相关的所有信息:
在这里插入图片描述
1.进程状态
进程描述符宏的state字段描述了进程当前所处的状态,系统中的每个进程必然处于五中状态中的一种:
(1)R (TASK_RUNNING),可执行状态。
只有在该状态的进程才可能在CPU上运行。而同一时刻可能有多个进程处于可执行状态,这些进程的task_struct结构被放入对应 CPU的可执行队列中(一个进程最多只能出现在一个CPU的可执行队列中)。进程调度器的任务就是从各个CPU的可执行队列中分别选择一个进程在该 CPU上运行。

很多操作系统教科书将正在CPU上执行的进程定义为RUNNING状态、而将可执行但是尚未被调度执行的进程定义为READY状态,这两种状态在linux下统一为 TASK_RUNNING状态。

(2)S (TASK_INTERRUPTIBLE),可中断的睡眠状态。
处于这个状态的进程因为等待某某事件的发生(比如等待socket连接、等待信号量),而被挂起。这些进程的task_struct结构被放入对应事件的等待队列中。当这些事件发生时(由外部中断触发、或由其他进程触发),对应的等待队列中的一个或多个进程将被唤醒。

通过ps命令我们会看到,一般情况下,进程列表中的绝大多数进程都处于TASK_INTERRUPTIBLE状态(除非机器的负载很高)。毕竟CPU就这么一两个,进程动辄几十上百个,如果不是绝大多数进程都在睡眠,CPU又怎么响应得过来。

(3)D (TASK_UNINTERRUPTIBLE),不可中断的睡眠状态。
与TASK_INTERRUPTIBLE状态类似,进程处于睡眠状态,但是此刻进程是不可中断的。不可中断,指的并不是CPU不响应外部硬件的中断,而是指进程不响应异步信号。

绝大多数情况下,进程处在睡眠状态时,总是应该能够响应异步信号的。否则你将惊奇的发现,kill -9竟然杀不死一个正在睡眠的进程了!于是我们也很好理解,为什么ps命令看到的进程几乎不会出现TASK_UNINTERRUPTIBLE状态,而总是 TASK_INTERRUPTIBLE状态。

(4)T (TASK_STOPPED or TASK_TRACED),暂停状态或跟踪状态。
向进程发送一个SIGSTOP信号,它就会因响应该信号而进入TASK_STOPPED状态(除非该进程本身处于 TASK_UNINTERRUPTIBLE状态而不响应信号)。(SIGSTOP与SIGKILL信号一样,是非常强制的。不允许用户进程通过 signal系列的系统调用重新设置对应的信号处理函数。)

向进程发送一个SIGCONT信号,可以让其从TASK_STOPPED状态恢复到TASK_RUNNING状态。

当进程正在被跟踪时,它处于TASK_TRACED这个特殊的状态。“正在被跟踪”指的是进程暂停下来,等待跟踪它的进程对它进行操作。比如在 gdb中对被跟踪的进程下一个断点,进程在断点处停下来的时候就处于TASK_TRACED状态。而在其他时候,被跟踪的进程还是处于前面提到的那些状态。

对于进程本身来说,TASK_STOPPED和TASK_TRACED状态很类似,都是表示进程暂停下来。
而TASK_TRACED状态相当于在TASK_STOPPED之上多了一层保护,处于TASK_TRACED状态的进程不能响应 SIGCONT信号而被唤醒。只能等到调试进程通过ptrace系统调用执行PTRACE_CONT、PTRACE_DETACH等操作(通过 ptrace系统调用的参数指定操作),或调试进程退出,被调试的进程才能恢复TASK_RUNNING状态。

2.PID
    ID存放在task_struct的pid字段中。PID被顺序编号,新创建进程的PID通常是前一个进程的PID加1。不过,PID的值有一个上限,当内核使用的PID达到这个峰值的时候,就必须开始循环使用已闲置的小PID号。在缺省情况下,最大的PID号是32767。
    Linux只支持轻量级进程,不支持线程,但为了弥补这样的缺陷,Linux引入线程组的概念。一个线程组中的所有线程使用和该线程组的领头线程相同的PID,也就是该组中第一个轻量级进程的PID,它被存入进程描述符的tgid字段中。getpid()系统调用返回当前进程的tgid值而不是pid值,因此,一个多线程应用的所有线程共享相同的PID。绝大多数进程都属于一个线程组;而线程组的领头线程其tgid与pid的值相同,因而getpid()系统调用对这类进程所起的作用和一般进程是一样的。

3.父子信息
    进程描述符还存放了进程相关的亲属关系,在如下字段:

real_parent:指向父进程的描述符,如果不存在,就指向进程1(init)的描述符
parent: 父进程,
children: 子进程链表的头部,
silbling: 指向兄弟进程链表中的下一个或上一个元素

4.thread
    尽管每个进程可以拥有属于自己的地址空间,但所有进程必须共享CPU寄存器,因此,在恢复一个进程的执行之前,内核必须确保每个寄存器装入了挂进程时的值。进程恢复执行前必须装入寄存器的一组数据称为硬件上下文。每次进程切换时,被替换进程的硬件上下问必须保存在某个地方,这个地方就是进程描述符中的thread字段,它指向的类型是thread_struct。在这个数据结构包含的字段涉及大部分CPU寄存器,但不包括诸如eax、ebx等通用寄存器,它们的值保存在内核栈中(而进程描述符是动态分配的,并不在内核栈中,内核栈只是保存了一个指向进程描述符的指针)。

5.mm(内存描述符)
我们知道每个进程都有自己的地址空间,而这个mm字段就存放了与进程地址空间有关的全部信息。mm字段的指向的类型是mm_struct。所有进程都有自己的内存描述符,同时所有进程的内存描述符组织在一个链表中,链表头为进程0的内存描述符的mmlist字段。关于进程的地址空间。

Linux pid与tgid概念
    在Linux操作系统层面,线程其实只是特殊的进程,最特殊之处在于跟其他“线程进程“共享内存(包括代码段、数据段等,但不共享栈)。
    熟悉Linux下C编程的同学都知道,每个进程都有自己的pid,每个线程都有自己的线程id(pthread_t类型),但这是在用户空间的层面。而在内核层面中,线程其实也是进程。为了更好地区分这些概念,我们用任务/task来指代内核中的进程概念,而依旧用进程来指定用户空间层面的进程。所以当我说task的时候,指的是内核层面,而当我说进程的时候,指的就是用户空间层面的。
    回到刚才说的地方,每个线程都是一个task,所以每个线程都有自己的一份struct task_sruct,而且每个线程都有自己独特的pid。那内核通过什么来知道这个线程属于哪个进程呢?答案是task_sruct.tgid。是的,一个进程就是一个线程组,所以每个进程的所有线程都有着相同的tgid。
    当程序开始运行时,只有一个主线程,这个主线程的tgid就等于pid。而当其他线程被创建的时候,就继承了主线程的tgid。这样,内核就可以通过tgid知道某个task属于哪个线程组,也就知道属于哪个进程了。当我们用ps命令或者getpid()等接口查询进程id时,内核返回给我们的也正是这个tgid。

6.标识当前进程
    我们再从效率的观点来看,刚才所讲的thread_info结构与内核态堆栈之间的紧密结合提供的主要好处还在:内核很容易从esp寄存器的值获得当前在CPU上正在运行进程的thread_info结构的地址。事实上,如果thread_union的长度是8K(213字节),则内核屏蔽掉esp的低13位有效位就可以获得thread_info结构的基地址;而如果thread_union的长度是4K,内核需要蔽掉esp的低12位有效位。这项工作由current_thread_info()函数来完成,它产生如下一些汇编指令:

movl $0xffffe000,%ecx /* or 0xfffff000 for 4KB stacks */

andl %esp,%ecx

movl %ecx,p

这三条指令执行后,p就是在执行指令的CPU上运行的当前进程的thread_info结构的指针。不过,进程最常用的是进程描述符的地址,而不是thread_info结构的地址。为了获得当前在CPU上运行进程的描述符指针,内核要调用current宏,该宏本质上等价于current_thread_info( )->task,它产生如下汇编指令:

movl $0xffffe000,%ecx /* or 0xfffff000 for 4KB stacks */

andl %esp,%ecx

movl (%ecx),p

因为task字段在thread_info结构中的偏移量为0,所以执行完这三条指令之后,p就是CPU上运行进程的描述符指针。
current宏经常作为进程描述符字段的前缀出现在内核代码中,例如,current->pid返回在CPU上正在执行CPU的进程的PID。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值