前言
本文分析的内容包括:
进程的概念和一般特性,为什么重要
进程和线程之间的关系
LInux如何存放和表示进程(用task_struct和thread_info)
如何创建进程(通过fork(),最终是clone())
怎么把新的执行映像装到地址空间(通过exec()系统调用)
怎么表示进程的层次关系
父进程怎么收集后代的信息(通过wait()系统调用)
进程如何消失(强制调用或者主动调用exit())
进程
程序本身并不是进程,进程是运行的程序,和其他的一些资源。比如打开的文件,挂起的信号还有内核的数据。
进程的创建:
在Linux系统当中,创建进程是通过fork()系统调用,fork()通过复制一个已有的进程来创建一个新的进程 。
调用fork()的进程是父进程,被创建的进程是子进程。
fork()系统调用从内核返回两次,一次是返回父进程,另一次返回到子进程。
普通的操作系统创建进程的方式分为几个步骤:
首先在新的地址空间里创建进程,然后读入可执行文件,最后开始执行。
Unix的实现方式比较特别,把创建的步骤分解到两个函数中来执行:一个是fork()函数,另一个是exec()函数。
1)fork()函数拷贝当前进程来创建一个新的子进程,子进程的父进程的区别就是:进程好PID,父进程好PPID还有其他一些资源。
传统的fork()系统调用直接把所有的资源复制给新的进程,这样效率比较低,因为可能拷贝的数据,新的进程并不需要,这样就做了无用功,浪费系统资源。
Linux的fork()做了优化,它使用写时拷贝(copy-on-write),内核不会直接复制整个进程地址空间,而是让父进程和子进程共享同一份拷贝。只有在需要写入的时候,数据才会被复制,每个进程才拥有自己的一份拷贝。在此之前,数据以只读的方式共享。
这样优化之后的fork()系统调用,它的实际开销就是复制父进程的页表,还有给子进程创建唯一的进程描述符。一般情况下,创建一个进程之后会马上运行一个可执行文件,这样的优化就可以避免拷贝大量不会被使用的数据。
2)exec()函数负责把可执行文件加载到地址空间,然后开始运行。
Linux中的进程和线程
线程机制可以让一组线程共享内存地址,共享其他的资源比如打开的文件,可以在多核处理器上并行处理任务。
Linux实现线程的机制比较独特。从内核的角度来说,没有线程这个专门的概念。Linux把所有的线程都看成进程来实现,内核没有准备专门的的调度算法来处理线程。
每一个线程都有自己的tack_struct,在内核里看起来就像一个普通的进程一样,只不过有些线程之间会共享一些资源,比如共享地址空间。
比如有一个包含四个线程的进程,在Linux当中只是创建四个进程,分配四个普通的task_struct结构,创建四个进程的时候指定他们共享的资源就可以了。
进程描述符
内核把进程的列表放入任务队列当中,任务队列是一个双向循环链表,链表当中的每一项都是一个进程描述符,是task_struct结构。
进程描述符包含的信息有:打开的文件,进程的地址空间,进程的状态,挂起的信号,还有其他一些信息。
内核通过进程的标识PID来识别不同的进程,每一个进程的PID存放在自己的进程描述符当中。
在内核当中,访问一个进程需要先获得他的task_struct的地址。
进程描述符当中有state域表示进程的状态。 系统中的进程一共有5个状态。
1)TASK_RUNNING:包括两种细分的状态:
- a)可运行:已有的进程调用fork()函数创建一个新的进程,新进程处于可运行状态
- b)运行中:系统调用这个新进程,他就处于运行中
2)TASK_INTERRUPTIBLE:进程被阻塞,等待某个条件,如果条件满足就变成可运行状态
3)TASK_UNINTERRUPTIBLE:就算收到信号也不会被唤醒,这个状态用的很少
4)TASK_STOPPED:进程调用do_exit函数可以进入终止状态。
5)TASK_TRACED:表示进程被其他进程跟踪
参考文献
《Linux内核设计与实现》Robert Love(著) 陈莉君 康华 翻译