Linux进程概念

最新推荐文章于 2024-10-07 08:26:37 发布

Adam Xi

最新推荐文章于 2024-10-07 08:26:37 发布

阅读量673

点赞数

分类专栏： linux

本文链接：https://blog.csdn.net/qq_43746320/article/details/103186750

版权

linux 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

冯诺依曼体系结构

美籍匈牙利数学家冯·诺伊曼于1946年提出存储程序原理，把程序本身当作数据来对待，程序和该程序处理的数据用同样的方式储存。冯·诺伊曼体系结构冯·诺伊曼理论的要点是：计算机的数制采用二进制；计算机应该按照程序顺序执行。人们把冯·诺伊曼的这个理论称为冯·诺伊曼体系结构

在这里插入图片描述
截止目前，我们所认识的计算机，都是有一个个的硬件组件组成，

输入单元：包括键盘，鼠标，扫描仪，写字板等
中央处理器CPU：含有运算器和控制器等
输出单元：显示器，打印机等

【注意】
1、这里的存储器指的是内存
2、不考虑缓存情况，这里的CPU能且只能对内存进行读写，不能访问外设（输入或输出设备）
3、外设（输入或输出设备）要输入或者输出数据，也只能写入内存或者从内存中读取
4、所有的设备只能直接和内存打交道

操作系统（Operator System)

概念

任何计算机系统都包含一个基本的程序集合，称为操作系统(OS)，笼统的理解，操作系统包括

内核（进程管理，内存管理，文件管理，驱动管理）
其他程序（例如库函数，shell程序等等）

简单来讲，操作系统是安装在计算机上的一个软件
目的：是为了让计算机更加好用
功能：合理统筹管理计算机上面的软硬件资源
在这里插入图片描述

系统调用和库函数的概念

在开发角度，操作系统对外会表现为一个整体，但是会暴露自己的部分接口，供上层开发使用，这部分接口有操作系统提供的结构，称为系统调用
系统调用在使用上，功能比较基础，对用户的要求相对比较高，所以，开发者可以对部分系统调用进行适度封装，从而形成库，有了库，就很有利于更上层用户或者开发者进行二次开发

进程概念

进程基本概念

课本概念：程序的一个执行实例，正在执行的程序等
内核观点：担当分配系统资源（CPU时间，内存）的实体

描述进程PCB

进程信息被放在一个叫做进程控制块的数据结构中，可以理解为进程属性的集合
操作系统通过PCB来控制一个进程的运行，PCB描述了一个正在运行中的程序
对这一种结构在操系统中统称为PCB(Process Control Block)，Linux操作系统下的PCB是task_struct

Linux下task_struct中的内容分类

标识符：描述本进程的唯一标识符，用来区别其他进程
状态：任务状态，推出代码，退出信号等
优先级：相对于其他进程的优先级
程序计数器：程序中即将被执行的下一条指令的地址
内存指针：包括程序代码和进程相关数据的指针，还有和其他进程共享的内存块的指针
上下文数据：进程执行时处理器的寄存器中的数据
I/O状态信息：包括显示的I/O请求，分配给进程的I/O设备和被进程使用的文件列表
记账信息：可能包括处理器时间总和，使用的时钟总和，时间限制，计账号等
其他信息

组织进程

可以在内核源代码中找到，所有运行在操作系统中的进程都以task_struct链表的形式存在内核里

查看进程

进程的信息可以通过/proc系统文件夹来查看，该文件夹中保存了系统中正在运行的程序信息
在这里插入图片描述
大多数的进程信息可以通过top和ps这些用户级工具来获取

#include <iostream>
#include <unistd.h>
int main()
{
    while(1)
    {
        sleep(1);
    }
    rerturn 0;
}

通过ps指令可以查看当前系统下的进程信息

若要查看当前系统下的所有进程信息，使用命令
ps aux 或
ps -ef

下图中，通过grep进行对所有进程信息进行筛选，筛选出含有test的条件项
在这里插入图片描述

通过系统调用获取进程标识符

#include <iostream>
#include <unistd.h>

int main()
{
    cout << getpid() << endl;  //查看当前进程的标识符（pid）
    cout << getppid() << endl;  //查看当前进程的父进程的标识符（ppid）
    return 0;
}

【注】
getpid()函数原型为：

pid_t getpid(void);
表示获取调用进程的pid，返回值为调用过程的过程id

通过系统调用创建进程

创建子进程函数

pid_t fork(void);
通过复制调用进程（父进程），创建一个新的进程（子进程）‘’
返回值：有两个返回值

在父进程中返回子进程的pid
在子进程中返回0
若创建失败，则返回-1

创建一个子进程，即创建一个PCB，所以复制父进程的信息，就是复制父进程的PCB，意味着和父进程有着一样的内存指针，程序计数器，上下文数据等；和父进程运行同样的代码；一样的运行位置；处理一样的数据，即父子进程代码共享，数据独有

#include <stdio.h>
#include <unistd.h>
using namespace std;

int main()
{
	pid_t ret = fork();
	if (ret < 0)
	    {
	         perror("fork");
	         return 1;
	     }
	 else if (ret == 0)
	     {
	         printf("I am child: %d ret = %d\n", getpid(), ret);
	         sleep(1);
	     }
	 else
	     {
	         printf("I am father: %d ret = %d\n", getpid(), ret);
	     }
    return 0;
}

在这里插入图片描述
先不论其他，只是看进程pid和返回值，对照上面的文字可以一一验证

进程状态

下面列出最常见的几种进程状态：

R：运行状态running，表明进程要么是在运行中，要么是在运行队列中
S：睡眠状态sleeping，表明进程在等待事件完成，也称可中断睡眠
D：磁盘休眠状态disk sleep，也称不可中断睡眠，在这个状态的进程通常会等待IO的结束
T：停止状态stopped，可以通过发送SIGSTOP信号给进程来停止进程，这个被暂停的进程可以通过发送SIGCONT信号让进程继续运行
X：死亡状态dead，这个状态只是一个返回状态，一般我们不会再任务列表里面看到这个状态
Z：僵尸状态zombies，子进程退出并且父进程没有读取到子进程退出的返回代码，就会产生僵尸进程

进程状态查看

ps aux
ps ajx

进程结束指令

kill + PID //一般结束进程方法
kill -9 + PID //强制结束进程

僵尸进程

僵尸状态是一个比较特殊的状态
其产生原因为：子进程先于父进程退出，释放一部分资源，但退出信息仍然保存在PCB中未退出，操作系统检测到子进程的退出但没有进行释放资源，因为父进程可能会关注退出信息，此时操作系统会通知父进程，但父进程未关注到该通知，使子进程处于僵死状态，造成僵尸进程
例如：

#include <iostream>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
using namespace std;

int main()
{
    pid_t pid = fork();
    if(pid > 0)
    {
        //parent
        cout << "parent:" << getpid() << " is sleeping..." << endl;
        sleep(30);
    }
    else if(pid == 0)
    {
        //child
        cout << "child:" << getpid() << " is begin to Z..." << endl;
        sleep(5);
        exit(EXIT_SUCCESS);
    }
    else
    {
        perror("fork");
        return 1;
    }
    return 0;
}

对以上程序进行编译执行，在另一个终端任务窗口下使用shell脚本监视该程序的运行，截图如下：

while :; do ps aux | grep out | grep -v grep; sleep 1; echo"##########"; done

在这里插入图片描述

如上图，可以看出在过了6s后子进程变为僵尸进程

僵尸进程危害

僵尸进程会造成资源泄漏，一个用户能够创建的进程是有限的，不断产生僵尸进程最终可能会导致创建进程失败

孤儿进程

父进程先于子进程退出，子进程称为孤儿进程，在后台运行，而它的父进程称为1号init进程，最后由init进程回收

环境变量

环境变量一般是指在操作系统中用来指定操作系统运行环境的一些参数
例如：在编写C/C++代码的时候，在链接时，不知道所链接的动态静态库的路径，但是照样可以链接成功，生成可执行程序，原因就是有相关环境变量帮助编译器进行查找
环境变量通常具有某些特殊用途，在系统中通常具有全局特性

环境变量格式

环境变量名称 = 环境变量的值1:环境变量的值2:环境变量的值3:…

查看环境变量

普通用户的环境变量文件一般情况下存在于当前的家目录下.bashrc文件和.bash_profile文件中（centOS7中），当前用户的环境变量
root用户的环境变量文件存在于/etc/bashrc中，整个系统的环境变量

echo $NAME //NAME:环境变量名称，查看某个具体的环境变量
env //查看所有的环境变量
set //显示本地定义的shell变量和环境变量

常见环境变量

PATH：指定命令的搜索路径
HOME：指定用户的主工作目录
LD_LIBRARY_PATH：动态库路径

进程优先级

基本概念

为了让计算机运行地更加合理，通过评级来决定一个进程的CPU资源优先分配权
cpu资源分配的先后顺序，就是指进程的优先级，优先权高的进程有优先执行权利

查看系统进程

在Linux或者Unix系统中，用ps -l命令输出如下：
ps-l

UID：代表执行者的身份
PID：代表这个进程的代号
PPID：代表这个进程是由哪个进程发展衍生而来的，亦即父进程的代号
PRI：代表这个进程可被执行的优先级，其值越小越早被执行
NI：代表这个进程的nice值

PRI和NI

PRI表示进程的优先级，即程序被CPU执行的先后顺序，此值越小进程的优先级别越高
NI代表nice值，表示进程可被执行的优先级的修正数值
PRI值越小越快被执行，加入nice值后，将会使得PRI变为：PRI(new) = PRI(old) + nice
当nice值为负值的时候，那么该程序优先级值将变小，即其优先级会变高，则越快被执行
nice其取值范围是-20到19，一共40个级别

【注意】：优先级PRI无法直接修改，但是可以通过修改NI的值来简介调整PRI的值

程序地址空间

在这里插入图片描述
有如下代码：

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>

int g_val = 0;

int main()
{
	pid_t id = fork();
	if(id < 0)
	{
		perror("fork");
		return 0;
	}
	else if(id == 0)
	{//child
		printf("child[%d] : %d : %p\n", getpid(), g_val, &g_val);
	}
	else 
	{//parent
		printf("child[%d] : %d : %p\n", getpid(), g_val, &g_val);
	}
	return 0;
}

输出：

parent[71440] : 0 : 0x601050
child[71441] : 0 : 0x601050

在有如下代码：

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>

int g_val = 0;

int main()
{
	pid_t id = fork();
	if(id < 0)
	{
		perror("fork");
		return 0;
	}
	else if(id == 0)
	{//child
		g_val = 100；
		printf("child[%d] : %d : %p\n", getpid(), g_val, &g_val);
	}
	else 
	{//parent
		sleep(3);
		printf("parent[%d] : %d : %p\n", getpid(), g_val, &g_val);
	}
	return 0;
}

输出：

child[71572] : 100 : 0x601058
parent[71571] : 0 : 0x601058

观察以上两组代码，有如下结论：

变量内容不一样，所以父子进程输出的变量绝对不是同一个变量
地址值是一样的，说明，该地址绝对不是物理地址
在Linux下，这种地址称为虚拟地址
我们在用C/C++语言所看到的地址，全都是虚拟地址，物理地址，用户一般看不到，有操作系统统一管理，操作系统必须负责将虚拟地址转化为物理地址

在这里插入图片描述

写时拷贝

对照上述的例子，父进程创建子进程时，并没有对子进程直接开辟内存拷贝数据，而是跟父进程映射到统一虚拟地址空间的位置，所以第一段代码中输出的是统一虚拟地址空间的同一位置中的内容，但是如果内存中数据发生改变，那么对于改变的这块内存，就需要重新给子进程开辟空间，并且更新页表信息，所以，第二段代码中修改时，将当前父进程的虚拟地址空间拷贝一份并进程数据修改，所以此时输出的是两个不同的虚拟地址空间中的对应位置的内容