用系统调用创建进程
#include <stdio.h>
#include <stdlib.h>
#include <sys/types.h>
#include <unistd.h>
extern int create_process (char* program, char** arg_list);
int create_process (char* program, char** arg_list)
{
pid_t child_pid;
child_pid = fork ();
if (child_pid != 0)
return child_pid;
else {
execvp (program, arg_list);
abort ();
}
}
根据 fork 的返回值不同,父进程和子进程就此分道扬镳了。在子进程里面,我们需要通过 execvp 运行一个新的程序。
创建第二个文件,创建的子程序运行了一个最最简单的命令 ls
#include <stdio.h>
#include <stdlib.h>
#include <sys/types.h>
#include <unistd.h>
extern int create_process (char* program, char** arg_list);
int main ()
{
char* arg_list[] = {
"ls",
"-l",
"/etc/yum.repos.d/",
NULL
};
create_process ("ls", arg_list);
return 0;
}
CPU 能够执行的命令是二进制的,比如“0101”这种,所以这些指令还需要翻译一下,这个翻译的过程就是编译(Compile)。
二进制的程序有严格的格式,这个格式我们称为 ELF(Executeable and Linkable Format,可执行与可链接格式)。这个格式可以根据编译的结果不同,分为不同的格式。
编译两个文件:
gcc -c -fPIC process.c
gcc -c -fPIC createprocess.c
在编译的时候,先做预处理工作,例如将头文件嵌入到正文中,将定义的宏展开,然后就是真正的编译过程,最终编译成为.o 文件,这就是 ELF 的第一种类型,可重定位文件(Relocatable File)。
在 ELF 头里面,有一项 e_entry,也是个虚拟地址,是这个程序运行的入口。
# ./staticcreateprocess
# total 40
-rw-r--r--. 1 root root 1572 Oct 24 18:38 CentOS-Base.repo
......
动态链接库(Shared Libraries),不仅仅是一组对象文件的简单归档,而是多个对象文件的重新组合,可被多个程序共享。
当一个动态链接库被链接到一个程序文件中的时候,最后的程序文件并不包括动态链接库中的代码,而仅仅包括对动态链接库的引用,并且不保存动态链接库的全路径,仅仅保存动态链接库的名称。
gcc -o dynamiccreateprocess createprocess.o -L. -ldynamicprocess
当运行这个程序的时候,首先寻找动态链接库,然后加载它。默认情况下,系统在 /lib 和 /usr/lib 文件夹下寻找动态链接库。如果找不到就会报错,我们可以设定 LD_LIBRARY_PATH 环境变量,程序运行时会在此环境变量指定的文件夹下寻找动态链接库。
动态链接库,就是 ELF 的第三种类型,共享对象文件(Shared Object)。基于动态链接库创建出来的二进制文件格式还是 ELF,但是稍有不同。首先,多了一个.interp 的 Segment,这里面是 ld-linux.so,这是动态链接器,也就是说,运行时的链接动作都是它做的。另外,ELF 文件中还多了两个 section,一个是.plt,过程链接表(Procedure Linkage Table,PLT),一个是.got.plt,全局偏移量表(Global Offset Table,GOT)。
运行程序为进程
在内核中,有这样一个数据结构,用来定义加载二进制文件的方法。
struct linux_binfmt {
struct list_head lh;
struct module *module;
int (*load_binary)(struct linux_binprm *);
int (*load_shlib)(struct file *);
int (*core_dump)(struct coredump_params *cprm);
unsigned long min_coredump; /* minimal dump size */
} __randomize_layout;
对于 ELF 文件格式,有对应的实现
static struct linux_binfmt elf_format = {
.module = THIS_MODULE,
.load_binary = load_elf_binary,
.load_shlib = load_elf_library,
.core_dump = elf_core_dump,
.min_coredump = ELF_EXEC_PAGESIZE,
};
谁调用的 load_elf_binary 函数吗?具体是这样的:do_execve->do_execveat_common->exec_binprm->search_binary_handler。
do_execve 又是被谁调用的呢?我们看下面的代码。
SYSCALL_DEFINE3(execve,
const char __user *, filename,
const char __user *const __user *, argv,
const char __user *const __user *, envp)
{
return do_execve(getname(filename), argv, envp);
}
exec 这个系统调用最终调用的 load_elf_binary。
exec 比较特殊,它是一组函数:
包含 p 的函数(execvp, execlp)会在 PATH 路径下面寻找程序;
不包含 p 的函数需要输入程序的全路径;
包含 v 的函数(execv, execvp, execve)以数组的形式接收参数;
包含 l 的函数(execl, execlp, execle)以列表的形式接收参数;
包含 e 的函数(execve, execle)以数组的形式接收环境变量。
进程树既然所有的进程都是从父进程 fork 过来的,那总归有一个祖宗进程,这就是咱们系统启动的 init 进程。
1 号进程是 /sbin/init。如果在 centOS 7 里面,我们 ls 一下,可以看到,这个进程是被软链接到 systemd 的。
系统启动之后,init 进程会启动很多的 daemon 进程,为系统运行提供服务,然后就是启动 getty,让用户登录,登录后运行 shell,用户启动的进程都是通过 shell 运行的,从而形成了一棵进程树。
PID 1 的进程就是我们的 init 进程 systemd,PID 2 的进程是内核线程 kthreadd,这两个我们在内核启动的时候都见过。其中用户态的不带中括号,内核态的带中括号。
接下来进程号依次增大,但是你会看所有带中括号的内核态的进程,祖先都是 2 号进程。而用户态的进程,祖先都是 1 号进程。tty 那一列,是问号的,说明不是前台启动的,一般都是后台的服务
pts 的父进程是 sshd,bash 的父进程是 pts,ps -ef 这个命令的父进程是 bash。这样整个链条都比较清晰了。