系统调用：sys_fork

最新推荐文章于 2021-07-28 01:27:40 发布

LinuxJoey

最新推荐文章于 2021-07-28 01:27:40 发布

阅读量3.9k

点赞数

分类专栏： Linux内核文章标签： struct 工作 timer signal linux 存储

Linux内核专栏收录该内容

5 篇文章 0 订阅

订阅专栏

fork 简介：

fork系统调用的功能是为当前进程创建一子进程，该子进程事实上是父进程的一个拷贝，只不过它的pid号和其它少数参数不同而已。fork系统调用是进程管理中一个重要的系统调用，也是shell命令解释程序常用的一个系统调用。如果调用成功，fork系统调用对父进程返回新生成的子进程的进程标识号pid,对子进程返回0；否则，将出错原因存入error变量，并向父进程返回-1。产生的出错原因有两种：

EAGAIN 表示fork难以为子进程的PCB的数据项分配足够的内存空间，如拷贝父进程的页表时申请内存失败。

ENOMEM 表示fork为自己的存在申请内存空间失败，甚至可能连存放进程控制块的内存都不够。

2）fork 功能的实现

查看“include/asm-i386/unistd.h”，fork系统调用的对应函数是不带参数的，该系统调用的设置应使用的宏应为：

static inline _syscall0(int,fork)

这样，在调用fork时，系统将调用宏指令_syscall0，进而，调用0x80号中断，寄存器eax中的值为__NR_fork,这是fork传给int $0x80的唯一的参数。

调用中断“int $0x80”以后，在汇编过程“system_call”中，将通过eax中的值__NR_fork（即2）与4的乘积作为相对于系统调用表（sys_call_table）偏移，找到入口：

.long SYMBOL_NAME(sys_fork)

于是，系统流程转向函数sys_fork（）。（“arch/i386/kernel/process.c”）：

asmlinkage int sys_fork(struct pt_regs regs)

{

return do_fork(SIGCHLD, regs.esp, &regs);

}

SIGCHLD是在定义的一个宏，它告诉do_fork（）函数应创建一子进程。前面提到过，调用宏过程“SAVE_ALL”将现有通用寄存器保存，提供了一种传递参数的方式，这里，sys_fork（）将所保存的寄存器组结构“struct pt_regs”类型的regs作为参数传递给do_fork（），并且传递了其中的栈寄存器项：regs.esp

于是，系统流程进入了文件“linux/kernel/fork.c”中定义的函数体do_fork（）。用户进程由do_fork()函数创建，它也是fork系统调用的执行者。do_fork()在task数组中找到空闲位置，继承父进程现有资源，初始化进程时钟、信号、时间等数据。下面一节介绍该函数的大概流程。

do_fork（）函数的大概流程

do_fork（）函数一开始就“作最坏的打算”，将可能返回的值error初始值置为-ENOMEM，它告诉系统，内存已被用完。然后，才进入主流程。

首先，do_fork（）函数调用kmalloc为进程申请内存空间，GFP_KERNEL表示允许内存一时申请不到时转入睡眠，这儿不作考虑，如果申请内存失败的话，将返回NULL。这时，do_fork（）函数转入bad_fork执行，这儿，do_fork（）函数直接返回出错信息，告诉系统，内存已被用完。

然后，do_fork（）函数调用alloc_kernel_stack（）宏，为进程申请堆栈页面，同样，如果申请失败，执行语句：

goto bad_fork_free_p;

这儿，有必要看一下标号bad_fork_free_p后的程序段：

bad_fork_free_p:

kfree(p);

bad_fork:

return error;

可以看到，随着对进程初始化工作的逐渐深入，一旦出现错误，需要做的回复工作也逐渐增多，因此，在do_fork（）函数的回复部分，与出错的次序出现了一个有趣而且巧妙的对称。

然后，执行语句：

error = -EAGAIN;

表示“ENOMEM”的危险已经过去，现在还存在“EAGAIN”的危险。

紧接着下面的语句是：

*p = *current;

它将当前进程的内容赋给新产生的进程，这时，子进程完全继承了父进程的内容，并且与之完全共享，这当然是不合理的，接下去的工作是使子进程拥有自己的特征。

首先要改变进程的所属的全局执行域结构中的use_count值，表示本域的进程数增了1，同样，也要改变进程所属的全局执行文件格式中的use_count值。

下面，设置与新进程相关的参数：

1．p->did_exec = 0，表示进程未被执行过；

2．p->swappable = 0，表示由于是新建进程，暂时拒绝被调用出内存；

3．p->kernel_stack_page = new_stack；为核心栈分配的一个物理页置入kernel_stack_page数据项；

4．设置进程状态为TASK_UNINTERRUPTIBLE，表示本进程将被置于等待队列中，由于资源未分配好，因此置为不可中断，使其待资源有效时唤醒，不可由其它进程通过信号唤醒；

5． p->flags &= ~(PF_PTRACED|PF_TRACESYS|PF_SUPERPRIV);

p->flags |= PF_FORKNOEXEC;

这两条语句表示，拒绝新建进程具有超级用户特权或被跟踪，同时使PF_FORKNOEXEC置位，表示新建进程还没执行；

6．“p->pid = get_pid(clone_flags);”语句中，get_pid（）函数先判断调用它的do_fork()是否进行clone系统调用，这儿显然不是（关于clone系统调用，在2.4节有简单介绍），那么返回一不大于0x8000的进程标志号，它还进行了与组标识号及区标识号进行区别的判断；

7．由于新产生的进程的状态还是为TASK_UNINTERRUPTIBLE，因此不将其放入就绪队列，将next_run，prev_run项均置为NULL。将指向原始父进程、父进程指针项赋值为当前进程Current；

8．为新进程的后续进程初始化等待队列；

9．“p->signal = 0;”表示新建进程尚未收到任何信号；

10．初始化时间数据成员：

init_timer(&p->real_timer);

p->real_timer.data = (unsigned long) p;

这两条语句初始化进程的定时数据结构timer_list类型的real_timer。

p->it_real_value = p->it_virt_value = p->it_prof_value = 0;

p->it_real_incr = p->it_virt_incr = p->it_prof_incr = 0;

以上两条语句初始化用于进程计时的数据项，将其均置为0，其中it_real_value, it_real_incr与系统计时变量jiffies保持一致，它表示真实时间; it_virt_value, it_virt_incr用于虚拟软件及时，它仅在进程运行时有效，因此，该数据项用于进程内计时，当时间到时，发送信号，具体代码见于文件“/kernel/sched.c”内的do_it_virt（）函数体：

if (it_virt <= ticks) {

it_virt = ticks + p->it_virt_incr;

send_sig(SIGVTALRM, p, 1); /*向进程发送信号SIGVTALRM*/

it_prof_value, it_prof_incr也用于虚拟的的软件定时，但还包括操作系统为进程运作而运行的时间，前者为时间值，后者为时间增量。它在时间到时发信号SIGPROF，这种计时工具可用来对用户使用系统的时间计时，以便进行清算等。

对进程计时用于控制进程运行时间，它可由另一系统调用setitimer来实现，它的其中一项参数就是指定设置的计时类型，即ITIMER_REAL ，ITIMER_VIRTUAL 以及ITIMER_PROF。

p->utime = p->stime = 0;

p->cutime = p->cstime = 0;

…………………….

p->start_time = jiffies;

该三条语句表示分别将进程用户态时间总和、进程核心态时间总和、子进程用户态时间总和、子进程核心态时间总和置为0，将建立该进程的系统时间置为jiffies，设置当前进程的建立时间。

11．“SET_LINKS(p);”语句将新进程与初始进程相关联，“task[nr] = p;”将其放入当前所有进程数组，“nr_tasks++;”表示当前进程增加了一个。

以上11步工作将新生成的进程的参数全部设置完毕，现为其分配应有的内存，用来保存与新进程相关的文件系统，内存页面，信号处理程序等工作，这儿，有必要再来看一下fork系统调用的处理函数：

asmlinkage int sys_fork(struct pt_regs regs)

{

return do_fork(SIGCHLD, regs.esp, &regs);

}

其中SIGCHLD的宏定义值为17，再来看“sched.h”中定义的“克隆”标志：

#define CSIGNAL 0x000000ff /* 在进程终止时须发的信息 */

#define CLONE_VM 0x00000100 /* 子进程共享父进程虚拟内存 */

#define CLONE_FS 0x00000200 /* 子进程共享父进程文件系统信息 */

#define CLONE_FILES 0x00000400 /* 子进程共享父进程打开文件 */

#define CLONE_SIGHAND 0x00000800 /* 子进程共享父进程信号操纵函数 */

#define CLONE_PID 0x00001000 /* 子进程共享父进程的进程号*/

可知，fork（）系统调用的clone_flags中，只有CSIGNAL非零，因此，子进程必须有自己的一套虚拟操作结构。

回到do_fork()函数，转入内存申请工作，以第一项申请为例：

if (copy_files(clone_flags, p))

goto bad_fork_cleanup;

即如果申请失败，返回的非零值使流程转向bad_fork_cleanup标记处，申请过程在函数体copy_files（）中进行。在此函数体内，观察语句：

oldf = current->files;

if (clone_flags & CLONE_FILES) {

oldf->count++;

return 0;

}

因为CLONE_FILES没有置位，因此不能在此直接返回，于是只能为新进程分配有关文件信息的结构所占用的内存：

newf = kmalloc(sizeof(*newf), GFP_KERNEL);

tsk->files = newf;

如果申请失败，返回-1，那么，正如前面所述， fork为自己的数据项申请内存空间失败，这时，返回EAGAIN。

接下去是拷贝父进程打开文件的结构指针，在进程控制块task_struct中，定义了一files_struct数据项 files，其结构如下所示：

struct files_struct {

int count;

fd_set close_on_exec;

fd_set open_fds;

struct file * fd[NR_OPEN];

};

其中，count 表示共享该文件组的进程数目，因此，设置初始值为零，每当进程结束时，会将该数据项减一；fd数据项是一指向本进程所打开文件的指针，它是一“NR_OPEN”的数组，“NR_OPEN”在“limit.h”中宏定义为256，这样，一进程最多可打开256个文件。

申请完file_struct 节点以后，执行代码：

if (copy_fs(clone_flags, p))

goto bad_fork_cleanup_files;

同样，转入函数体copy_fs（），该函数拷贝父进程的在VFS中的位置。在Linux系统中，进程本身也是一种文件，fs_struct结构的root指向根目录结点，pwd指向当前进程工作目录结点。count表示文件的引用次数，初始值设为1，umask表示文件的缺省创建模式，继承父进程的方式。

这里顺便简单介绍一下inode 结构，在Linux的EXT2文件系统里面，inode是基本的文件（或目录，但Linux系统中，两者等价）描述块，一般来说，它包含了此文件的一些关键信息：所在设备、类型、大小、时间属性、在设备上的位置、用户属性等等。

接下去do_fork()执行copy_sighand（）函数，该函数将父进程的与信号处理有关的结构拷贝到新产生进程。

最后执行copy_mm（）函数，该函数为新进程开辟新的页面，然后将父进程的所有mm_struct结构类型的数据项“mm”拷贝到子进程，修改一些特征参数，如count值，将def_flags初始设为0，即不对任何标志位置位（def_flags标志位保存mm_struct结构所指的虚存的信息，如锁定（VM_LOCKED）等）。

如下语句为新进程分配页表：

if (new_page_tables(tsk)) {

tsk->mm = NULL;

exit_mmap(mm);

goto free_mm;

}

如分配页表失败，转到free_mm处释放先前为mm所申请的存储空间后，返回出错信息。若成功，转到函数dup_mmap（）为新进程分配虚存链（vm_area_struct结构）的存储空间，并调用“build_mmap_avl(mm);”为之建立AVL树结构。vm_area_struct结构保存进程所有开辟的虚拟空间的信息，并通过语句：“flush_tlb_mm(current->mm)”通报系统，从current->mm开始的存储结构已被改变，需要重新设置快表。

在进程间资源共享上，Linux采用一种“写时拷贝”的策略，即共享双方中的一方试图改变共享资源时，把资源拷贝给另一方。这儿所说的资源特指存储空间。

fork的返回工作——返回到system_call

这一节主要还是在do_fork()函数中工作，但是由于还得牵涉到返回entry.S中进行系统调用返回的处理工作，所以单独列出一节。

关键的一步是：

copy_thread(nr, clone_flags, usp, p, regs);

该函数在文件“/arch/i386/kernel/process.c”中定义，或许该函数仅仅是设置进程的TSS(Task State Segment)，但是其中的下述语句值得注意：

childregs = ((struct pt_regs *) (p->kernel_stack_page + PAGE_SIZE)) - 1;

p->tss.esp = (unsigned long) childregs;

这两条语句使子进程的保存状态的堆栈段指向新开辟的堆栈。

p->tss.eip = (unsigned long) ret_from_sys_call;

*childregs = *regs;

childregs->eax = 0;