fork函数
fork函数是创建一个子进程,之前用过。
#include <unistd.h>
pid_t fork(void);
返回值:自进程中返回0,父进程返回子进程id,出错返回-1。
进程拥有独立性,fork之后就变成了两个程序,父子进程共享后边的代码。
那么为什么给父进程返回的就是子进程的pid,而给子进程返回的就是0呢?
就好比孩子只能有一个亲生的父亲,而一个父亲可以拥有很多亲生孩子,每个孩子都是独立不同的。
fork函数是在什么时候创建的子进程呢?
pid_t fork()
{
1.创建PCB
2.赋值
3.创建进程地址空间
4.赋值
5.创建并设置页表
6.子进程放入进程队列//这里才是创建成功一个进程,也是分流的地方
7.........
return pid;//返回的时候核心代码已经执行完毕了
}
也就是说fork返回两个值是因为返回之前就已经创建好新进程了。
返回的本质就是写入,谁先返回谁先写入id,因为进程的独立性,然后就会发生写时拷贝。
fork失败的原因
系统拥有太多个进程超过了用户进程的限制就会失败。
进程终止
退出码
在写C/C++的时候,我们在main函数是程序的开始,但是最后一个位置会写return 0;
这也就代表一个程序的退出,至于为什么要写return 0,而不是返回其他的,亦或者是不写都可以,因为返回uid这个数字是退出码,0是正常退出的意思,因为正确只有一个,不会管你怎么成功,但是失败就会找失败的原因再去改正。
echo $?是查看最近进程的退出码,上一个写的进程退出码是1,再查一次就是echo $?的退出码,是0.
退出码可以自定义,也可以使用系统的映射关系,这里不太推荐。
这个之前用过:
然后来看看里面数字对应的错误信息
注意:如果程序异常退出码也无意义。
常见的退出方式
上面说了在mian函数中调用return就是进程退出。
C语言和操作系统还提供了两个函数退出进程:
这是C语言提供的一个函数,只要使用就会退出当前进程,参数是退出码。
无论是在哪个位置,或者是后面有多少代码。
还有一个系统级别调用的是_exit,作用几乎相同:
系统调用的并没有打印。
这是C语言提供的,过了两秒钟就打印出来了。
这说明:
exit 终止进程后会主动刷新缓冲区。
_exit 终止之后不会主动刷新缓冲区。
那么这个缓冲区在哪里呢?
exit会刷新缓冲区,但是系统不会,也就是说位置在系统调用和库函数之间,具体的以后说。
进程等待
什么是进程等待,为什么要进程等待
之前说过僵尸进程会导致内存泄漏,因为他的资源无法回收,所以就需要等待子进程结束然后来保存资源给父进程,通过获取子进程退出信息知道是否成功退出。
首先来看两个等待进程的函数。
wait/waitpid:
status参数是拿该进程的退出结果。
options参数是传入阻塞和非阻塞状态。
pid_t是返回进程的pid,返回-1代表失败。
wait
这个程序10-15秒是僵尸进程,15s之后就会被回收,这个时候子进程就不是僵尸状态了。
waitpid
在举例之前首先说一下status:
一个程序终止有三种情况,代码运行完毕,结果正确和不正确,还有没运行完,出异常了。
这个时候status是获取他们这个信息的,并且它是拥有自己的位图结构的。
一共有32个比特位,其中重要的只有16个比特位:
终止信号是一个进程出异常了会受到终止信号,暂时用来判断进程是否正常退出。
退出状态是看结果是否正确。
这个是等待的过程,其实就是status去PCB找信号和退出码。
总结来说:status让操作系统释放掉僵尸状态,然后获取进程的退出结果。
但是如果让我们自己去求信号和退出码很麻烦,所以Linux提供了一些操作的宏,重点说两个:
WIFEXITED(status): 若为正常终止子进程返回的状态,则为真。(查看进程是否是正常退出)
WEXITSTATUS(status): 若WIFEXITED非零,提取子进程退出码。(查看进程的退出码)
所以就可以改良成这个样子:
结论:
进程退出会变成僵尸,之后将自己的推出结果放入PCB,wait/waitpid是系统调用,有资格去读取PCB中的资源。
阻塞与非阻塞
阻塞
父进程一直在等子进程结束回收资源。
非阻塞
父进程一段时间过来看一下子进程是否结束,如果没结束可以做其他事情,这个叫轮询方式。
WNOHANG: 若pid指定的子进程没有结束,则waitpid()函数返回0,不予以等待。若正常结束,则返回该子进程的ID。
NO1就父进程是不是询问子进程是否退出。
如果在询问之后不子进程没有准备完毕,父进程则可以做一些其他的事情。
至于非阻塞和阻塞谁更好,这个要看实际场景。
进程替换
之前说过创建子进程的目的是让子进程去帮忙“做事”,可是为什么要去让子进程帮忙做事呢?
首先说目的:
1.想让子进程执行父进程磁盘代码其中的一部分。
2.想让子进程执行一个全新的程序。
替换原理
一个可执行程序被首先被加载到内存中,然后执行代码,然后代码中有操作让本程序执行一个新程序,这个时候就会将指定执行的程序的代码和数据覆盖掉原本的代码和数据,在整个过程中并没有产生新的进程,这就是为什么每次都要去创建一个子进程来去执行新程序。
替换函数
执行系统命令
这些函数的作用是将指定的程序加载到内存当中,让指定的进程执行。
int execl(const char *path, const char *arg, …);
第一个参数是说如何找到程序,第二个参数是我们在命令行解释器怎么调用该程序就怎么写,最后用NULL结尾。
这几个函数统一的是exec,这个函数最后一个l 意思是 list 将参数一个一个传入exec*
这里执行完execl之后,后边打印process就不会执行,因为整个程序的代码和数据已经被覆盖掉了。
并且这类函数返回值只有-1,表示错误。
因为成功之后接下来的代码是不会执行的,所以返回一个正确的值进行判断也毫无意义。
int execlp(const char *file, const char *arg, …);
结尾是p的第一个参数不用去指定路径了,他会在环境变量PATH,进行可执行程序的查找
int execv(const char *path, const char *argv[], …);
v是vector的意思,第二个参数是让我们把所有可执行参数放入数组中传过去。
int execvp(const char *file, const char *argv[], …);
这个就不演示了,这两个参数上面都说过。
上面的只是在执行系统命令,那么想执行自己写的程序该怎么办呢?
执行自己写的程序
首先来说一下makefile这个文件:
先创建一个.c文件
如果我想让test.c去调用process.c,首先要生成这两个可执行程序,但是makefile只会默认的生成第一个可执行程序,后面的就不会再去执行,所以我们要这样写:
因为是调用程序,所以不管是什么语言的程序都可调用。
int execle(const char *path, const char *arg, …,char *const envp[]);
最后一个参数是自定义环境变量的意思。
现在的自定义环境变量还没定义,所以为空。
我们发现,如果没有自定义环境变量,系统自带的环境变量就会被打印,但是如果自定义环境变量系统自带的环境变量就不会被打印。
那么如果我两个都想要怎么办呢?
这个函数传入你的自定义环境变量就可以了,作用就是将你定义的环境变量导入到系统当中。
这里穿插一个问题,一个程序运行之前,是先调用main还是先调用exec函数呢?
是先调用exec函数,因为它的作用上面说了,是将程序加载到内存中,Linux中,它就是加载器。
调用exec函数之后会将自己的参数等等传给main函数,这就是为什么之前说main函数有三个参数,谁传给他的。
int execvpe(const char *file, const char *argv[], …,char *const envp[]);
这个参数就不说了,都说过了。
注意:上面这些接口都是execve系统调用,其他的都是封装,为了让我们有更好的选择性。
模拟实现简易的shell
首先来利用main函数的参数来实现一个功能:
那么我们可有利用这个模拟实现一个简单的shell。
第一步先设置输入和输出,并且创建一个字符数组储存输入的参数。
我们输入一个字符串是abc,然后会按回车,也就是说实际上是abc\n,如果我要在打印信息%s后面加一个\n那么就会多出一行,不加容易出现缓冲区不刷新问题,所以我们要去除输入末尾的\n。
第二步要进行字符串分割,因为我们在屏幕输入的是ls -a -l这种,但是exec函数要用到的是字符指针数组类型的,所以我们创建一个字符指针数组,然后进行分割放进字符指针数组:
这里要说一下内建命令,我们在输入ls什么的时候不同文件会有颜色,但是如果调用exec里面就需要自己添加颜色选项,我们又不能在屏幕输入,所以只能在代码中添加,首先判断一定要是ls命令才行,然后添加颜色选项。
像这种不需要让子进程来执行,而是shell自己执行的就叫做内建命令。
第三步是打印,创建一个子进程帮我们工作,这是因为exec函数会替换掉原来程序中所有的代码和数据:
然后我们还可以设置一个条件编译来看看字符指针数组中的字符切割是否正确:
先来测试一下上面的程序是否正确
但是如果我们输入cd …就会发现根本没有任何变化,这是为什么呢?
先创建一个其他程序来看一下一个进程的状态:
用ls /proc/pid -al
cwd是当前进程的工作目录,也是我们平时说的当前路径,exe是当前程序执行的是磁盘路径的哪一个程序。
那么这个当前路径可以改变嘛?通过一个函数是可以的:
谁调用这个函数就更改谁的工作目录,参数是更改到哪个目录。
如果更改了工作目录,那么以后这个程序再进行创建文件等等操作,就会再新的工作目录创建,因为系统默认是跟可执行程序同一个目录下去创建新文件。
那么刚才我们的shell不能cd …是因为他只能让当前工作目录发生变化,因为shell是通过创建子进程去执行命令,我们让目录进行变化的时候是让子进程去帮助执行,也就是说改变的其实是子进程的目录,和父进程没有任何关系,所以说这里还需要创建一个内建命令:
之有前还有一个命令,是echo $?,返回的是最近一次退出码
首先创建两个全局变量保存退出码和信号,然后再用他们储存子进程返回的结果:
最后进行判断:
这里简单的完善一下就可以了,主要是综合了上面所说的大部分内容。