2024年大名鼎鼎的 Linux —— 进程,线程,协程(1),2024年最新带你一步一步深入Handler源码

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前在阿里

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新Linux运维全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上运维知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化的资料的朋友,可以点击这里获取!

进到进程目录里面能看到一堆和进程相关的数据:

  • cwd 软链接,指向进程工作目录

  • exe 软链接,指向进程的执行地址

  • fd 目录,存放进程打开的文件描述符

  • fdinfo 目录,存放进程打开的文件描述符的信息

  • maps 文件,进程打开相关文件的内存映射(比如 mmap 系统调用)

  • status 文件,保存进程的状态 running、sleep、ready 等

  • limits 文件,存放进程相关的一些限制条件 max open files 限制文件描述符的个数

  • environ 文件,存放环境变量

  • io 文件,记录进程 io 时读取的字节数

  • task 目录,这个目录很重要,因为里面放的每个目录对应的就是一个线程

好了,至此应该知道一个进程执行时,操作系统会为程序分配内存,会记录程序各种各样的信息。而具体执行的东西是 task 目录下的线程。

可以理解为进程就像是一个环境,这个环境里有各种各样的资源,cpu 具体执行的是 task 目录下的线程,这些线程共享进程资源。单线程的程序 task 目录就一个线程,多线程的的程序 task 目录就有多个线程

执行 ps -efT,PID 为进程 ID,SPID 为线程 ID,下面是 redis 启动时,开启的线程数

image.png

操作系统眼中的进程是怎样的?


对于每个进程而言,大家都是相互独立的,你写的程序是不可能访问其他进程地址的数据和指令

因此操作系统为了隔离进程,给每个进程创建出了一个虚拟地址空间,意思是在每个进程都以为自己独立拥有整块内存,进程中的指令跳转、数据访问所使用的地址都是虚拟地址,因此不同的进程之间是不可能互相访问的

而实际上进程的数据是保存在物理内存的,因此每个进程的地址空间和物理内存之间存在一种映射关系,这种关系保存在每个进程的页表

image.png

在操作系统眼里,用户程序是一个充满了bug随时会崩溃的定时炸弹(必须承认,我们写的代码里藏有很多bug…),或者干脆就是某些天才程序员用来恶意控制整个计算机的破坏者。

操作系统面对的就是这样一个恶劣的环境。因此作为操作系统,应该把用户程序当做囚犯一样关在牢笼里面。

#include<stdio.h>

int main()

{

printf(“hello world\n”);

return 0;

}

复制代码

再看一下上面的 test.c 程序,就干了一件事,打印 hello world 到标准输出(默认是控制台),这个过程是需要用户程序、操作系统、硬件三方合作才能完成的。

image.png

首先程序运行,当前处于用户态,然后代码执行到 printf 时,这里用户程序发起 write 系统调用,系统调用时会发出软中断(0x80),让CPU 执行环境由用户态变为内核态,接下来内核执行 writev 系统调用对应的处理逻辑以及用户程序的传参,调用硬件驱动把数据写到控制台

类似的系统调用有很多,因此我们的应用程序很多时候都是在用户态和内核态之间进行一种切换。操作系统必须要保证硬件资源的合理利用,以及对各种硬件的合理访问。因此,对它而言用户程序是不可被信任的,因此对于硬件的操作都需要封装成系统调用,提供给用户程序,不会让用户程序直接操作

操作系统眼中的线程是怎样的?


上面看进程信息的时候已经说到了 task 目录,基本上大家就知道了进程和线程的关系了,为了更清晰的了解线程,首先看一下一个程序是怎么运行的

image.png

  • 程序是怎么运行的?

  • 很简单,把 main 函数地址放到 CPU 的 PC 寄存器就行

  • 什么是 PC 寄存器?

  • PC 寄存器存放CPU 即将执行的下一条指令的地址

  • 为什么要把 main 函数地址放到 PC 寄存器?

  • 因为 main 函数是程序的入口

  • 那我放其他函数的地址可不可以?

  • 当然可以,因为线程就是这么设计的

当我们把PC寄存器指向非 main 函数时,线程就诞生了

image.png

当然我 fork 一个线程肯定不是只为了执行一个函数,因此每个线程都会有自己独立的栈区以及寄存器组。当发生线程切换的时候,因为线程间共用进程地址,因此不需要切换进程上下文,只需要保存当前线程的数据以及执行到哪条指令,然后把 CPU 的 PC 寄存器指向下一个线程的执行地址就行

image.png

轻量级进程

其实对于cpu调度而言,操作系统调度的对象实际上是 /proc/$pid/task 目录的对象,线程和进程的区别无非是地址空间是独立的还是共享的,因此内核会为每个 task 对象创建一个 task_struct 结构体,这个结构体叫进程描述符。这些 task 对象拿到 cpu 时间片后,只有在时间片使用完、IO 阻塞、亦或者产生硬中断等外部条件时,才会暂停运行,也就是说线程是不会主动让出 cpu 时间片的,他们之间属于竞争关系

从 Linux 内核的角度看,它使用轻量级进程对多线程应用提供支持,其实它的创建也是基于fork()系统调用,只是在进程描述符的初始化当中有所区别。首先,轻量级进程也是一个进程,它有它自己的pid,有它自己的内核栈和进程描述符,甚至还有它自己的调度策略,而轻量级进程和普通进程不同的就是它没有自己的进程地址空间,并且要响应线程组内其他线程接收到的信号(但可以通过修改信号屏蔽字屏蔽某些信号)。轻量级进程使用的是父进程的内存地址空间,也就是在task_struct结构中的内存指针指向父进程的内存地址。而信号描述符指针会指向父进程指向的地址。而在应用层,线程有自己的栈

轻量级进程和普通进程区别:

  • 没有自己的进程地址空间,使用父进程的进程地址空间
  • 与组内所有进程共享信号,但有自己的信号屏蔽字

协程是什么?

======

上面说到线程之间是竞争关系,线程不会主动让出 cpu 时间片,因此当系统中的线程越来越多的时候,操作系统为了让每个线程都有机会执行,会频繁的进行线程切换。线程切换的代价比进程切换要少很多,因为各个线程之间共享进程地址空间,共享内存,共享全局数据等,因此只需要保存当前线程的局部变量,数据,以及 pc 寄存器的值,然后加载新线程的资源即可

用户态线程


对于 web 应用而言,线程切换最频繁的场景就在于 IO 了。当 IO 阻塞时,操作系统会挂起线程,然后让其他线程执行,不会让 cpu 傻傻等着

线程切换无非是改变 CPU 下一条指令执行的地址,那我们能不能在应用程序的用户态做到?

function main()

{

A();

B();

C();

}

function A()

{

//IO Blocking

}

function B()

{

//IO Blocking

}

function C()

{

//IO Blocking

}

复制代码

上面这段代码,A,B,C,三个函数互不依赖,但是各自都有 IO 阻塞的代码。用传统的 php-fpm 执行,这个进程会阻塞三次,执行时间为 A+B+C;假如为这个三个函数各创建三个子线程,然后执行,理想情况下执行时间为 MAX(A,B,C),但是存在线程切换(单核)

如果能在 A 进行 IO 阻塞时,让 cpu 执行函数 B 的指令,然后等 A 的 IO 结束后,再重新执行后续的逻辑。那么程序既不会挂起,也不需要进程线程切换,而且执行时间也是 MAX(A,B,C)

可以根据线程的思路,在用户态为这三个函数创建各自的栈,以及各自独立的内存空间,从 A 切换到 B 时,把 A 下一条该执行的指令地址和 A 的局部变量保存起来,然后把指令切换到 B 的初始地址。这个过程不需要操作系统,而是由用户态代码逻辑来切换。这样对于操作系统而言,这个程序实际上只阻塞了一次

协程调度


上面说到在 IO 阻塞的时候,会进行协程切换。那如何知道当前的 IO 是阻塞的呢?

答案就是之前写到的一篇文章——IO多路复用。通过 epoll/kqueue/select/poll 这些成熟的 IO 多路复用模型,能够获取到文件描述符是否能够读写的状态,由此来唤醒协程 or 切换协程

swoole

不同语言实现的的协程调度逻辑实际都不一样,上面我说到的方法是 php 的协程扩展 swoole 用到的方式。本来 php 是单线程执行的,而 swoole 则是维护了一堆协程栈,这些协程有自己的状态,通过 IO 多路复用函数,来改变协程的状态,从而不会让整个线程发生阻塞。但是因为 php 对线程的支持不是很好,所以 swoole 的协程是单线程的

golang

golang 这种编译型语言对各种 io 函数进行了封装,这些封装的函数提供给应用程序使用,而其内部调用了操作系统的异步 io函数,当这些异步函数返回 busy 或 bloking 时,golang 利用这个时机将现有的执行序列压栈,让线程去拉另外一个协程的代码来执行,并且 golang 的协程是多线程的

协程调度器


实际上 PHP 提供了语法糖,能改变函数的执行顺序,关键字叫 yield,函数中包含该关键字的,被称为 generator 对象。

<?php function main() { $t1 = test1(); $t2 = test2(); $queue = new SplQueue(); $queue->enqueue(['is_start' => false, 'task' => $t1]); $queue->enqueue(['is_start' => false, 'task' => $t2]); while (true) { if ($queue->isEmpty()) { break; } else { $item = $queue->dequeue(); if ($item['is_start']) { $item['task']->next(); } else { $item['task']->rewind(); $item['is_start'] = true; } if ($item['task']->valid()) { $queue->enqueue($item); } } } return true; } function test1() { foreach ([1,2,3,4,5] as $i) { echo $i . PHP_EOL; yield; } } function test2() { foreach ([10,20,30,40,50] as $i) { echo $i . PHP_EOL; yield; } **网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。** **[需要这份系统化的资料的朋友,可以点击这里获取!](https://bbs.csdn.net/topics/618542503)** **一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!** ach ([1,2,3,4,5] as $i) { echo $i . PHP_EOL; yield; } } function test2() { foreach ([10,20,30,40,50] as $i) { echo $i . PHP_EOL; yield; } **网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。** **[需要这份系统化的资料的朋友,可以点击这里获取!](https://bbs.csdn.net/topics/618542503)** **一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
  • 19
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值