前段时间整理了一整个系列关于计算机原理相关的内容点,感觉还是蛮有意思的。后边歇了一段时间,现在继续回顾这个专题,希望后续自己能够继续坚持维护下去。
之前的文章中有提及过什么是进程,既可以说进程是程序运行的一个表现,也可以说它是CPU分配虚拟内存空间的一个基本单元。
之前还提及过如果在操作系统中频繁地做进程之间的切换,其实是一个非常消耗资源的行为。因为不同进程之间的数据保存在不同的PCB中,当切换到新的进程的时候,需要将原先进程的PCB数据保存,然后重新加载新的PCB中的数据。
进程在执行的时候,CPU的一些寄存器,栈指针都需要和进程的执行情况做绑定,所以当进程进行切换的时候,需要将这些执行状态的信息寄存到PCB中。整体流程如下所示:
渐渐地人们开始提出一种设想,能否设计一种技术,能实现多个任务执行的时候可以并发地执行,并且切换执行的时候开销比切换进程要小。
于是这个时候便诞生了线程这么一个概念。
线程是什么
从使用角度来看,线程可以看作是进程中的一条执行流程。
从运作资源的层面来看,进程将一组资源统一管理了起来,然后通过自身定义的一些基础函数实现线程并发执行的过程。(这里说的一组资源环境中包含了地址空间,代码段,数据段,程序运行期间需要使用的各种资源数据。)
线程包含有了自己的一些专属数据区域,例如说自己的程序计数器,线程栈等。进程PCB内部的主要存储也就是各种线程和一个公共的资源管理模块。当线程需要创建的时候由进程分配指定的资源空间供其运作。
各个进程共享相同的资源空间弊端:
造成资源的竞争激烈,有时候一个线程的崩溃,可能会导致其他线程的崩溃。
多线程和多进程的应用场景
多线程应用场景
1.十个线程同时下载一份大文件,最终对多个小文件块进行合并。
2.项目中使用的线程池,多线程并发处理任务,提高消费速率。
3.异步计算任务,例如JDK内部的Future等。
4.Tomcat服务器调配线程数,提升系统的并发吞吐量。
多进程应用场景
1.例如k8s集群中,多个进程同时在机器上运作。
2.谷歌浏览器每打开一个页面就开启一个进程。(这样设计是因为进程之间的资源隔离,不会导某一异常网页对资源过度消耗影响到其他页面的使用情况)
线程的上下文切换
之前本系列的第一篇文章CPU中有提到过线程在进行内核函数调用的时候需要从用户态切换到内核态,其中需要执行一个叫做80中断的这么一个过程,比较消耗性能。除此之外,线程在进行上下文切换的环节也是需要通知到内核态,做相应的80中断操作,但是是否说线程的上下文切换就一定要经过内核呢?
线程实现的三种方式
-
用户线程
-
内核线程
-
轻量级线程
用户线程
在操作系统的用户空间中实现的线程机制,当线程之间进行切换的时候不需要通知系统内核,切换的工作由进程内部的一组函数操作,支持每个进程自定义自己的线程调度函数,多线程切换的效率较高。用户线程这种机制在一些比较早期的操作系统,例如 Mach, Solaris 中受到支持。
Mach是一个由卡内基梅隆大学开发的用于支持操作系统研究的操作系统内核。
Solaris 是Sun Microsystems研发的计算机操作系统。它被认为是UNIX操作系统的衍生版本之一。
不足点
如果一个线程调用系统内核出现了堵塞,会导致该进程其他想调用相应内核函数的线程都受到影响,因为其他线程无法直接中断该线程对于CPU的占用权限,除非等该线程主动让出CPU。
由于CPU分配的资源是视进程作为基本单元,再由进程将资源分配给各个线程,因此在越来越多线程执行的过程中所获得的资源就会较少。一个线程在执行过程中,除非自己释放对CPU的使用权,否则其他线程无法占用该使用权。
内核线程
下边这里有一张图简单地描述了内核线程的资源管控结构。
PCB和TCB的管控由内核空间管理,所以线程的上下文切换,终端等都是由操作系统处理,一次切换就需要一次用户态到内核态的调用。常见的Windows,XP操作系统都是采用的内核线程设计机制。
好处
保证任意线程对资源的使用比较公平,不会出现一个线程独占CPU资源的情况。
资源的分配单位为线程,随着线程数的增加,所分得的时间片也越多。
不足点
性能开销较大,每次切换都需要由用户态切换到内核态
轻量级进程LWP
轻量级进程(LWP)是建立在内核之上并由内核支持的用户线程,它是内核线程的高度抽象,每一个轻量级进程都与一个特定的内核线程关联。内核线程只能由内核管理并像普通进程一样被调度。如下图所示:
轻量级进程由clone()系统调用创建,参数是CLONE_VM,即与父进程是共享进程地址空间和系统资源。
与普通进程区别:LWP只有一个最小的执行上下文和调度程序所需的统计信息。
- 处理器竞争:因与特定内核线程关联,因此可以在全系统范围内竞争处理器资源
- 使用资源:与父进程共享进程地址空间
- 调度:像普通进程一样调度
轻量级线程(LWP)是一种由内核支持的用户线程。它是基于内核线程的高级抽象,因此只有先支持内核线程,才能有LWP。每一个进程有一个或多个LWPs,每个LWP由一个内核线程支持。这种模型实际上就是恐龙书上所提到的一对一线程模型。在这种实现的操作系统中,LWP就是用户线程。
由于每个LWP都与一个特定的内核线程关联,因此每个LWP都是一个独立的线程调度单元。即使有一个LWP在系统调用中阻塞,也不会影响整个进程的执行。
局限性
- 大多数LWP的操作,如建立、析构以及同步,都需要进行系统调用。系统调用的代价相对较高:需要在user mode和kernel mode中切换。
- 每个LWP都需要有一个内核线程支持,因此LWP要消耗内核资源(内核线程的栈空间)。因此一个系统不能支持大量的LWP。
Linux内部几个核心内核函数介绍
fork函数
//
// Created by idea on 2021/5/15.
//
#include <unistd.h>
#include <stdio.h>
int main ()
{
pid_t fpid; //fpid表示fork函数返回的值
int count = 0;
fpid = fork();
if (fpid < 0)
printf("error in fork!");
else if (fpid == 0)
{
printf("i am the child process, my process id is %d/n", getpid());
printf("我是爹的儿子/n");//对某些人来说中文看着更直白。
count++;
}
else
{
printf("i am the parent process, my process id is %d/n", getpid());
printf("我是孩子他爹/n");
count++;
}
printf("统计结果是: %d/n", count);
return 0;
}
运行结果:
在linux内核中,fork函数的作用是创建一个和原进程一样的相同进程,这两个进程可以做相同的事情。例如上方的代码中,父进程A创建了子进程B,子进程中调用的fork函数返回的数值为0,所以执行的结果打印如图所示。
fork调用的一个奇妙之处就是它仅仅被调用一次,却能够返回两次,它可能有三种不同的返回值:
1)在父进程中,fork返回新创建子进程的进程ID;
2)在子进程中,fork返回0;
3)如果出现错误,fork返回一个负值;
wait函数
有时需要让一个进程等待另一个进程,最常见的是父进程等待自己的子进程,或者父进程回收自己的子进程资源包括僵尸进程。wait函数的主要作用就是让父进程等待子进程的执行结果。
父进程一旦调用了wait就立即阻塞自己,由wait自动分析是否当前进程的某个子进程已经退出,如果让它找到了这样一个已经变成僵尸的子进程,wait就会收集这个子进程的信息,并把它彻底销毁后返回;如果没有找到这样一个子进程,wait就会一直阻塞在这里,直到有一个出现为止。