【万字长文】Linux中的这些知识点，你真的都了解吗

1_5_2_

已于 2024-02-03 10:48:24 修改

阅读量767

点赞数 21

分类专栏：操作系统文章标签： linux 运维服务器

于 2024-02-03 10:46:26 首次发布

本文链接：https://blog.csdn.net/sinat_37908214/article/details/136005113

版权

操作系统专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文件管理

Linux系统中一切皆文件，在Linux系统中基本上把其中的所有内容都看作文件，除了我们普通意义理解的文件之外，目录、字符设备、块设备、套接字、进程、线程、管道等都被视为是一个“文件”。Linux通过一个虚拟的文件系统可以对所有的对象进行管理。
VFS（虚拟文件系统）
- VFS是一个抽象层，其向上提供了统一的文件访问接口，而向下则兼容了各种不同的文件系统。不仅仅是诸如Ext2、Ext4、XFS和Btrfs等常规意义上的文件系统，还包括伪文件系统和设备等等内容。VFS建立了应用程序与具体文件系统的联系，其主要起适配的作用。对于应用程序来说，其访问的接口是完全一致的（例如open、read和write等），并不需要关系底层的文件系统细节。也就是一个应用可以对一个文件进行任何的读写，不用关心文件系统的具体实现。另外，VFS实现了一部分公共的功能，例如页缓存和inode缓存等，从而避免多个文件系统重复实现的问题。
- vfs可以将满足其定义接口的任何对象视为文件子系统，并挂载以实现操作系统对其的管理（以文件方式进行管理）
- 分类
  - 基于磁盘的文件系统：Ext4
  - 网络文件系统：NFS
  - 基于内存的文件系统：如/proc文件系统、/sys文件系统
文件系统挂载
- 文件系统要先挂载到VFS目录树中的某个子目录（称为挂载点），才能通过挂载点访问它管理的文件。VFS提供了一组标准文件访问接口，以系统调用方式提供给应用程序
- Linux在挂载文件系统时，读取文件系统超级块super_block从超级块出发读取并构造全部dentry目录结构
- dentry目录结构指向存储设备文件时，是一个个的inode结构
- mount对象：挂载点对象，该对象会引用super_block和dentry，完成挂载
四大对象
- super_block
  - 用于描述存储设备上的文件系统，一个超级块对应一个文件系统（已经安装的文件系统类型如ext2，此处是实际的文件系统，不是VFS）。可以从super_block出发把存储设备上的内容读取出来。
- dentry
  - 通过其来组织整个目录结构，其本身是内存缓存，而inode是磁盘中的数据，只有真正使用的时候才会创建，平时不会保存在磁盘上。更确切的说是存在于内存的目录项缓存，为了提高查找性能而设计。
- file
  - 描述进程中的某个文件对象
  - 文件对象描述的是进程已经打开的文件。因为一个文件可以被多个进程打开，所以一个文件可以存在多个文件对象。但是由于文件是唯一的，那么inode就是唯一的，目录项也是固定的
- inode
  - 可以看作存储设备上的具体对象，保存的其实是实际的数据的一些信息，这些信息称为“元数据”(也就是对文件属性的描述)。例如：文件大小，设备标识符，用户标识符，用户组标识符，文件模式，扩展属性，文件读取或修改的时间戳，链接数量，指向存储该内容的磁盘区块的指针，文件分类等等。一个inode可以对应多个dentry【比如link】
  - 当创建一个文件的时候，就给文件分配了一个inode。一个inode只对应一个实际文件，一个文件也会只有一个inode。inodes最大数量就是文件的最大数量。
- 文件系统格式化时磁盘会被分成三个存储区域：super_block（超级块）、索引节点区(inode)、数据块区。
  - 磁盘读写的最小单位是扇区(512B)
  - 文件系统把连续的扇区组成了逻辑块，每次以逻辑块为最小单元来管理数据。常见的逻辑块大小为4KB(8个扇区，也等同于一个内存页的大小)。

PageCache

page 是内存管理分配的基本单位， Page Cache 由多个 page 构成。page 在操作系统中通常为 4KB 大小（32bits/64bits），而 Page Cache 的大小则为 4KB 的整数倍。
os会利用系统空闲物理内存给文件读写做缓存，这缓存叫做PageCache。应用程序在写文件时，os会先把数据写入PageCache，成功写进后，对于用户代码，写入就结束了。
然后，os再异步更新数据到磁盘。应用程序在读文件时，os是先尝试从PageCache查数据，找到就直接返回，找不到会触发一个缺页中断，然后os把数据从文件读取到PageCache，再返回给应用程序。
数据写到PageCache后，并不是同时写到磁盘，这其间有个延迟。 os可保证即使程序异常退出，os也会把这部分数据同步到磁盘。但若服务器都突然掉下电，这部分数据就丢了。

进程生命周期

PCB (process control block)
- 进程控制块，一个task_struct（泰克_丝拽夫特）结构体，里面存储这进程的所有信息（标识信息、现场信息、控制信息）。
  - pid：进程的id信息；（pid的数量是有限的，不可能在linux中创建无数多的进程。cat /proc/sys/kernel/pid_max 此命令可以查看最多可以创建进多少进程）
  - *mm：关于内存描述的指针，描述内存资源；
  - *signal：信号处理函数等等；
  - *files：文件资源，进程运行中打开了哪些文件，这些文件的fd相关的信息；
  - *fs：描述文件系统资源；进程在运行的时候进程的root pwd是在哪

进程状态
- 就绪
- 深度睡眠
- 浅度睡眠
- 执行（占有cpu）
- 暂停
- 僵尸
- 进程被fork出来以后处于就绪状态等待CPU调度，当该进程被调度时会占有CPU执行。进程处于执行状态时如果时间片耗尽就被放入就绪队列等待下次被执行，如果从前台对一个正在运行的进行输入Ctrl+Z，进程就是暂停执行，如果收到信号SIGCONT就会被放入就绪队列等待下次被执行，如果进程退出执行就会变成僵尸进程（下文会再次提及），其父进程可以wait它的退出状态。
- 进程因等待资源进入睡眠状态，睡眠状态可分为深度睡眠和浅度睡眠。浅度睡眠和深度睡眠相同点是在资源到位时都可以加入就绪队列，不同的是浅度睡眠可以被信号唤醒，而深度睡眠不可以被信号唤醒。为什么Linux不把所有的睡眠都设计成深度睡眠呢？深度睡眠是有必要的，例如执行某段程序时发生了page fault，该进程睡眠，在内核执行中断处理程序，如果不是深度睡眠那么进程就可以被信号唤醒返回程序执行，此时又发生了page fault，进程又去睡眠，又被信号唤醒，又发生page fault，处理这样的过程太过麻烦……

父子进程

所谓父子进程，就是在一个进程的基础上创建出另一条完全独立的进程，这个就是子进程，相当于父进程的副本。
在Linux中，程序员可以通过pid_t fork()函数即可为当前进程创建出一个子进程：
通过父子进程特性可以看到，子进程与父进程有着很强的关联，但其运行过程并不影响父进程；因此子进程也被称为父进程的守护进程：当一个进程需要做一些可能发生阻塞或中断的任务，父进程可通过子进程去做，来避免自己进程的崩溃。
子进程完全拷贝父进程的PCB，但并不是同一个。而父进程执行时在PCB存储了程序计数器与上下文信息，因此虽然父子进程代码共享，但子进程并不会从代码起始从新运行。
- PCB (process control block)：进程控制块，一个task_struct结构体，里面存储这进程的所有信息（标识信息、现场信息、控制信息）。
父子进程虽然代码共享，但数据是各自独有的。这是因为OS中的虚拟内存机制，这样的机制保证了父子进程独立运行互不干扰。
fork
- fork 的时候，创建的子进程是复父进程的虚拟内存，并不是物理内存，这时候父子的虚拟内存指向的是同一个物理内存空间，这样能够节约物理内存资源，页表对应的页表项的属性会标记该物理内存的权限为只读。
- 不过，当父进程或者子进程在向这个内存发起写操作时，CPU 就会触发写保护中断，这个写保护中断是由于违反权限导致的，然后操作系统会在「写保护中断处理函数」里进行物理内存的复制，并重新设置其内存映射关系，将父子进程的内存读写权限设置为可读写，最后才会对内存进行写操作，这个过程被称为「写时复制」。

僵尸进程

一个进程在退出的时，会关闭所有的文件描述符，释放在用户空间中分配的内存，但是该进程的 PCB 仍会暂时保留，因为里面还存放着进程的退出状态以及统计信息等，这些PCB的信息均需该进程的父进程接收。若父进程并未察觉到子进程死亡，子进程就会进入到“僵尸”状态。从父进程角度看，子进程仍然存在，即使子进程实际上已经死亡。这就是“僵尸进程”
- Linux下任何进程都有父进程，即每个进程的PCB都需由其父进程回收（除了0号进程）
  - 子进程退出时，会为父进程发送SIGCHLD信号
  - 父进程需要主动捕捉这个信号才能回收子进程的PCB信息
- idle进程（0号进程）是系统所有进程的先祖，内核静态创建的，运行在内核态；这也是唯一一个没有通过fork或者kernel_thread产生的进程；
- init进程（1号进程）是系统中所有其它用户进程的祖先进程，由0进程创建，完成系统的初始化
- kthreadd进程（2号进程）由0进程创建，始终运行在内核空间，负责所有内核线程的调度和管理；
解决方法
- 重启OS，僵尸进程自动释放。
- 杀死父进程，子进程由僵尸进程转为孤儿进程，PCB由1号进程回收。
避免方法
- 父进程每隔一段时间来查询子进程是否结束并回收，调用wait()或者waitpid(),通知内核释放僵尸进程
- 使用信号函数sigaction（sei哥action）为SIGCHLD设置wait处理函数。这样子进程结束后，父进程就会收到子进程结束的信号。并调用wait回收子进程的资源

孤儿进程

父进程先于子进程退出后，回收子进程的父进程就不在了，会使子进程变成孤儿进程。
随即该孤儿进程会马上被操作系统的1号进程领养，该进程的PCB回收也由1号进程完成。
孤儿进程由系统回收，没有危害。

进程间的通信

管道
- 本质：在内核中开辟一块缓冲区；若多个进程拿到同一个管道(缓冲区)的操作句柄，就可以访问同一个缓冲区，就可以进行通信。
- 相对速度：涉及到两次用户态与内核态之间的数据拷贝----将数据写入管道与从管道读取数据
- 特性：
  - 管道是半双工通信
  - 管道的生命周期与进程一样(当打开的管道的所有进程都退出，管道就会被释放)
  - 管道提供字节流传输服务(可靠的、有序的、基于连接的一种灵活性比较高的传输服务)
  - 管道自带同步与互斥
    - 管道中没有数据则read会阻塞/管道中数据满了则write会阻塞
    - 管道的读写操作在PIPE_BUF(4096 byte)大小以内保证操作的原子性
- 匿名管道(PIPE)
  - 在内核中的缓冲区是没有具体的标识符的，匿名管道只能用于具有亲缘关系的进程间通信在父子进程中，子进程完全拷贝父进程的PCB，当父进程开辟一个缓冲区时，会有一个操作句柄，而子进程也复制了该操作句柄，通过操作句柄，就能访问到该同一个缓冲区了。
- 具名管道(FIFO)
  - 命名管道也是内核中的一块缓冲区，并且这个缓冲区具有标识符；这个标识符是一个可见于文件系统的管道文件，能够被其他进程找到并打开管道文件，则可以获取管道的操作句柄，所以该命名管道可用于同一主机上的任意进程间通信。
共享内存
- 本质
  - 在物理内存上开辟一块内存空间，多个进程可以将同一块物理内存空间映射到自己的虚拟地址空间，通过自己的虚拟地址直接访问这块空间，通过这种方式实现数据共享
- 特性
  - 共享内存是最快的进程间通信方式
  - 生命周期不随进程，随内核（没有人为情况下）
  - 共享内存没有自带同步与互斥，多个进程进行访问的时候存在安全问题
信号量
- 本质
  - 信号量是用于实现进程间的同步与互斥，信号量基于操作系统的 PV 操作，程序对信号量的操作都是原子操作。
- 原理
  - 信号量只能进行两种操作等待和发送信号，即P(sv)和V(sv)
    - P(sv)：如果值大于零，就给它减1；如果它的值为零，就挂起该进程的执行
    - V(sv)：如果有其他进程因等待而被挂起，就让它恢复运行，如果没有进程因等待而挂起，就给它加1。
    - 如果信号量值大于0，则资源可用，并且将其减1，表示当前已被使用。如果信号量值为0，则进程休眠直至信号量值大于0。
  - 在信号量进行PV操作时都为原子操作（因为它需要保护临界资源）
消息队列
- 本质
  - 是一个消息的链表，存储在内核中。用户进程可以向消息队列添加消息，也可以向消息队列读取消息。消息队列与管道通信相比，其优势是对每个消息指定特定的消息类型，接收的时候不需要按照队列次序，而是可以根据自定义条件接收特定类型的消息。
- 特性
  - 消息队列是面向记录的，其中的消息具有特定的格式以及特定的优先级。
  - 消息队列独立于发送与接收进程。进程终止时，消息队列及其内容并不会被删除。
  - 消息队列可以实现消息的随机查询，消息不一定要以先进先出的次序读取，也可以按消息的类型读取。
  - 通过使用消息类型，进程可以按任何顺序读信息，或为消息安排优先级顺序。
  - 自带同步与互斥
  - 生命周期随内核
Socket
- 不过多描述

分段式管理

逻辑空间分为若干个段，每个段定义了一组有完整逻辑意义的信息。（如主程序段、子程序段、数据段等）段的长度由相应的逻辑信息组的长度决定，因而各段长度不等。内存空间为每个段分配一个连续的分区。
分段可以避免产生内部碎片(不是绝对的)，但由于分段是离散的在主存内找到空闲的槽块并插入，问题是物理内存很快充满了许多空闲空间的小洞，因而很难分配给新的段，或扩大已有的段产生大量外部碎片。
- 例如4kb的空间装入3kb的段，产生的1kb的空间无法在装入任何段，产生碎片的主要原因是因为分段使用的大小是不确定的。当然前面也提到过，外部碎片可通过紧凑的方式以合成较大的空闲空间，但这需要大量成本，操作系统难以维护。

分页式管理

分页式管理将程序资源划分为固定大小的页，将每一个虚拟页映射到物理页之中，由于每个页是固定大小的，操作系统可以整齐的分配物理内存空间，避免产生了外部碎片。
分页管理仍然会产生内部碎片，尽管每个页碎片不超过页的大小；页表过大，占用大量空间，可以采用多级页表思想解决。
为什么页的大小为4KB
- 过小的页面大小会带来较大的页表项，从而增加了寻址时TLB查找速度和额外开销
- 过大的页面大小会浪费内存空间，造成内存碎片，降低了内存的利用率。

内存存在的问题

内存不足：如果是逻辑内存直接映射到物理内存，当逻辑内存超过物理内存的时候，计算机就会出现内存不足的情况，导致程序崩溃。
内存碎片化：如果程序频率启动或退出，会产生内存碎片，对于连续分配内存时，即使碎片内存数量比申请的内存大，但可能导致申请失败，因为没有足够的连续内存。
程序间互相修改内存：如果程序切换时，不同的程序指向相同的内存时，会导致修改数据错乱。
为了解决以上问题，大牛们提出使用一个中间层，通过间接方式访问物理内存；这种方式中，程序中访问的内存地址不再是实际的物理内存地址，而是一个虚拟地址，然后由操作系统将这个虚拟地址映射到适当的物理内存地址上。
这样，只要OS处理好虚拟地址到物理内存地址的映射，就可以保证不同的程序最终访问的内存地址位于不同的区域，彼此没有重叠，就可以达到内存地址空间隔离的效果。

虚拟地址空间

所有的程序都各自享有一个从0开始到最大地址的空间，虚拟地址并不真实存在于计算机中（内存和磁盘），这个地址空间是独立的，是该程序私有的，其它程序既看不到，也不能访问该地址空间，这个地址空间和其它程序无关，和具体的计算机也无关。仅仅是每个进程“认为”自己拥有内存，虚拟内存和物理内存在底层都会按照固定大小的页进行划分。而实际上它用了多少空间，操作系统就在磁盘上划出多少空间给它，等到进程真正运行的时候，需要某些数据并且数据不在物理内存中，才会触发缺页异常，进行数据拷贝。
虚拟存储器
- 局部性原理
  - 时间局部性：刚刚运行的指令，在以后更有可能被运行。
  - 空间局部性：刚刚访问的存储单元，在之后访问的可能性更大。
- 基于局部性原理，在程序装入时，可以将程序的一部分装入内存，而将其他部分留在外存，就可以启动程序执行。由于外存往往比内存大很多，所以我们运行的软件的内存大小实际上是可以比计算机系统实际的内存大小大的。在程序执行过程中，当所访问的信息不在内存时，由操作系统将所需要的部分调入内存，然后继续执行程序。另一方面，操作系统将内存中暂时不使用的内容换到外存上，从而腾出空间存放将要调入内存的信息。这样，计算机好像为用户提供了一个比实际内存大的多的存储器–虚拟存储器。
页表
- 页表是一种特殊的数据结构，存放着各个虚拟页的状态，是否映射，是否缓存.。进程要知道哪些内存地址上的数据在物理内存、磁盘上，哪些不在，还有在物理内存、磁盘上的哪里，这就需要用页表来记录。页表的每一个表项分为两部分，第一部分记录此页是否在物理内存上，第二部分记录物理内存页的地址(如果在的话)。当进程访问某个虚拟地址，就会先去看页表，如果发现对应的数据不在物理内存中，则发生缺页异常。
- 页表负责MMU虚拟地址与物理地址之间的映射关系。
- 快表（TLB）
  - 页表一般都很大，并且存放在内存中，所以处理器引入MMU后，读取指令、数据需要访问两次内存：首先通过查询页表得到物理地址，然后访问该物理地址读取指令、数据。为了减少因为MMU导致的处理器性能下降，引入了TLB
  - TLB是一种高速缓存，内存管理硬件使用它来改善虚拟地址到物理地址的转换速度。快表对于页表：就像Redis对于DB，高速缓存对于内存。
- 多级页表
  - ARM MMU采用2级页表结构:一级页表(L1)和二级页表(L2).
  - 一级页表(L1)：页表中只有一个一级页表。通常把它叫做L1主页表(L1 master page table)。一级页表将4GB的地址空间划分成了4096个1MB的段(section)。也就是说它有4096个页表项(一个页表项占4byte的空间，所以一个一级页表就占4096*4byte=4KB的空间)。4096个页表项按其功能分为2中类型：
    - 普通页表项: 此页表项中包含的是虚拟地址到物理地址的转换关系(即虚拟地址对应物理页帧的首地址)。
    - 指针页表项：此页表项中包含的是指向二级页表的指针。
  - 二级页表(L2)：由于一级页表的划分粒度是1MB，划分粒度太粗，所以需要使用二级页表来进行细分。一级页表通过L1指针页表项把它们两者链接了起来。MMU访问时就可以通过一级页表的L1指针页表项访问对应的二级页表。从这个关系我们可以看出，二级页表一般有多个，其数量等于L1指针页表项的数量。二级页表根据细分的粒度，又可以将分为下面几种类型(不同MMU对二级页表的划分可能不一致,但原理一致)：
    - 小页表(small)：小页表的页表项数量=1MB/4KB=256个。(一个页表项占4byte的空间,所以一个粗页表就占256 * 4byte=1KB的空间)。
    - 大页表(large)：大页表的页表项数量=1MB/64KB=64个。(一个页表项占4byte的空间,所以一个粗页表就占16 * 4byte=64byte的空间)。
    - 不管是大页表还是小页表，它们里面的页表项都是普通页表项，包含的是虚拟地址到物理地址的转换关系。(即虚拟地址对应物理页帧的首地址)
MMU（内存管理单元）
- 访问内存的操作是很频繁的，如果在软件层面操作一定会非常慢，所以在硬件层面提供了一个MMU这么一个组件。
- MMU位于处理器内核和连接高速缓存以及物理存储器的总线之间。
- 负责虚拟地址与物理地址之间的转化、内存保护、权限控制等事务。
- 流程
  - 当cpu发出一个读写请求的虚拟地址，MMU首先查看它的高速缓存TLB中是否存在这个虚拟地址到物理地址的转换关系(后面简称转换关系)。如果存在，说明物理地址找到，转换流程完成。如果不存在，就需要用到页表来查找了。流程如下：
    - 根据虚拟地址的定位到L1主页表的具体的页表项上。判断是普通页表项还是指针页表项。
      - 如果是普通页表项因为它包含转换关系，说明物理地址找到，转换流程完成。
      - 如果是指针页表项,那么MMU就根据指针指向的二级页表来继续查找。因为二级页表的页表项是普通页表项，它包含转换关系,所以物理地址找到，转换流程完成。
      - 在找到转换关系后,MMU就会将此转换关系缓存到TLB中,方便下次使用。
虚拟地址转换
- 虚拟页和物理页通过MMU（内存管理单元）及页表完成转换。
虚拟内存的工作原理
- 当一个进程试图访问虚拟地址空间中的某个数据时，会经历下面两种情况的过程：
  - CPU想访问某个虚拟内存地址，找到进程对应的页表中的条目，判断有效位，如果有效位为1，说明在页表条目中的物理内存地址不为空，根据物理内存地址，访问物理内存中的内容并返回
  - CPU想访问某个虚拟内存地址，找到进程对应的页表中的条目，判断有效位，如果有效位为0，但页表条目中还有地址，这个地址是磁盘空间的地址，这时触发缺页异常，系统把物理内存中的一些数据拷贝到磁盘上，腾出所需的空间，并且更新页表。此时重新执行访问之前虚拟内存的指令，就会发现变成了情况1
页面置换
- 需要的页不在内存中的时候，会出现缺页中断。这种情况下需要进行页面的置换。
  - 存在空闲页面，直接引入需要的页面。
  - 不存在空闲页面，则需要淘汰一些页面然后再引入需要的页面。
    - FIFO(First In First Out) ：总是淘汰最先进入内存的页面，即选择在内存中驻留时间最长的页面。
    - LRU(Least Currently Used) ：最久未使用的页面予以淘汰。
    - LFU(Least Frequently Used) ：选择最少使用的页面作为淘汰页。
结构
- 每个进程的地址空间都包含了两部分，即内核空间内存和用户空间内存
  - 用户态：也叫用户空间，是用户进程/线程所在的区域。主要用于执行用户程序。
  - 内核态：也叫内核空间，是内核进程/线程所在的区域。主要负责运行系统、硬件交互。可以操作更高级别的CPU指令集
  - 进入内核态后，进程才能访问内核空间内存
  - 所有进程的内核态逻辑地址是共享同一块物理内存地址
- 用户空间内存分布
  - 只读段：包括代码和常量等
  - 数据段：包括全局变量等
  - 堆：包括动态分配的内存，从低地址开始向上增长
  - 文件映射：包括动态库、共享内存等，从高地址开始向下增长
  - 栈：包括局部变量和函数调用的上下文等（栈的大小是固定的）
- 用户态和内核态切换的开销
  - 保留用户态现场（上下文、寄存器、用户栈等）
  - 复制用户态参数，用户栈切到内核栈，进入内核态
  - 额外的检查（因为内核代码对用户不信任）
  - 执行内核态代码
  - 复制内核态代码执行结果，回到用户态
  - 恢复用户态现场（上下文、寄存器、用户栈等）
- 用户态切换到内核态的方式
  - 为了使应用程序访问到内核的资源，如CPU、内存、I/O，内核必须提供一组通用的访问接口，这些接口就叫系统调用（主动）。
  - 在执行用户程序时出现某些不可知的异常，会从用户程序切换到内核中处理该异常的程序，也就是切换到了内核态（被动）。
  - 外围设备发出中断信号，当中断发生后，当前运行的进程暂停运行，并由操作系统内核对中断进程处理，如果中断之前CPU执行的是用户态程序，就相当于从用户态向内核态的切换（被动）。

内存分配

c标准库的malloc，可以在堆上动态分配内存
- 分配小块内存时（
- 大块内存（>128K），使用内存映射mmap() 来分配，在文件映射段找一块空闲内存分配出去，在内存工作繁忙时，频繁的内存分配会导致大量的缺页异常，使内核的管理负担增大.
c标准库的mmap，可以在文件映射段上动态分配内存调用以上函数时，并不会真正分配内存，仅当首次访问内存时才通过缺页异常进入内核态，进行内存分配。

小对象分配

系统运行中有大量比页小的多对象
- 在用户空间上malloc通过brk()分配的内存，在释放时并不立即规划系统，而是缓存起来重复利用。
- 在内核空间上Linux通过slab分配器管理小内存。（slab可以视为构建在系统上的一个缓存，主要作用是分配并释放内核中的小对象）

进程切换和线程切换的区别

最主要的一个区别在于进程切换涉及虚拟地址空间的切换而线程不会。因为每个进程都有自己的虚拟地址空间，而线程是共享所在进程的虚拟地址空间的，因此同一个进程中的线程进行线程切换时不涉及虚拟地址空间的转换。
进程都有自己的虚拟地址空间，把虚拟地址转换为物理地址需要查找页表，页表查找是一个很慢的过程，因此通常使用Cache来缓存常用的地址映射，这样可以加速页表查找，这个cache就是TLB（快表）。由于每个进程都有自己的虚拟地址空间，那么显然每个进程都有自己的页表，那么当进程切换后页表也要进行切换，页表切换后TLB（快表）就失效了，cache失效导致命中率降低，那么虚拟地址转换为物理地址就会变慢，表现出来的就是程序运行会变慢，而线程切换则不会导致TLB失效，因为线程线程无需切换地址空间，因此我们通常说线程切换要比较进程切换块，原因就在这里。
线程切换只涉及到用户态和内核态的切换，并不会涉及虚地址空间。

线程、进程、协程

进程是一个静态概念，是操作系统给程序分配资源的基本单位。
- 进程是程序执行的过程，包括了动态创建、调度和消亡的整个过程。
- 通常包括内存资源、IO资源、信号处理等部分。
- 虚拟地址空间、用户态、内核态。。。
线程是一个动态概念，线程是CPU调度（执行操作）的基本单位。一颗CPU在同一时间只能执行一个线程（严格的来说同一时间只能执行一条指令，这个指令来自于某个线程）。
- 同一进程中的多条线程共享该进程中的全部系统资源，如虚拟地址空间，文件描述符文件描述符和信号处理等等。但同一进程中的多个线程有各自的调用栈、寄存器环境、线程本地存储等信息。
- 线程创建的开销主要是线程堆栈的建立，分配内存的开销。这些开销并不大，最大的开销发生在线程上下文切换的时候。
协程（纤程）：可以理解为线程中的线程，类比一个进程可以拥有多个线程，一个线程也可以拥有多个协程，因此协程又称微线程和纤程。
- 是一种基于线程之上，但又比线程更加轻量级的存在，可以粗略的把协程理解成子程序调用，每个子程序都可以在一个单独的协程内执行。
- 在传统的J2EE系统中都是基于每个请求占用一个线程去完成完整的业务逻辑（包括事务）。所以系统的吞吐能力取决于每个线程的操作耗时。如果遇IO密集型操作，则整个系统的吞吐立刻下降，因为这个时候线程一直处于阻塞状态，如果线程很多的时候，会存在很多线程处于空闲状态（等待该线程执行完才能执行），造成了资源应用不彻底。比较流行的解决方案之一就是单线程加上异步回调。
- 而协程的目的就是当出现长时间的I/O操作时，通过让出目前的协程调度，执行下一个任务的方式，来消除ContextSwitch上的开销。
- 特点
  - 线程的切换由操作系统负责调度，协程由用户自己进行调度，因此减少了上下文切换，提高了效率。
  - 适用于被阻塞的，且需要大量并发的场景。但不适用于大量计算的多线程，遇到此种情况，更好实用线程去解决。
  - 由于在同一个线程上，因此可以避免竞争关系而使用锁。
  - 线程的默认Stack大小是1M，而协程更轻量，初始一般为2KB，可随需要增大。因此可以在相同的内存中开启更多的协程。
- 调度开销
  - 协程的调度完全由用户控制（进程和线程都是由cpu 内核进行调度），协程拥有自己的寄存器上下文和栈，协程调度切换时，将寄存器上下文和栈保存到其他地方，在切回来的时候，恢复先前保存的寄存器上下文和栈，直接操作用户空间栈，完全没有内核切换的开销，协程都在一个线程内部可以不加锁的访问全局变量。
  - 线程是被内核所调度，线程被调度切换到另一个线程上下文的时候，需要保存一个用户线程的状态到内存，恢复另一个线程状态到寄存器，然后更新调度器的数据结构，这几步操作设计用户态到内核态转换，开销比较多。
  - 协程无法利用多核资源。协程的本质是个单线程，它不能同时将单个CPU的多个核用上，协程需要和进程配合才能运行在多CPU上。当然我们日常所编写的绝大部分应用都没有这个必要，除非是cpu密集型应用。
JVM中的线程和操作系统的线程是1比1的，JVM中有一个线程物理机中一定有一个对应的线程。go语言中的协程和物理机的不是1比1的，go语言中的线程要大于物理机的线程。

select、poll、epoll

首先要知道select、poll、epoll都是用来实现多路复用的系统调用，即一个线程利用它们即可管理多个socket。也就是说线程不会被任何一个被管理的 Socket 阻塞，且任一个 Socket 来数据之后都得告知 select、poll、epoll 线程。
FD（file descriptor）
- 文件描述符，在linux中，一切皆文件。实际上，它是一个索引值，指向一个文件记录表，该表记录内核为每一个进程维护的文件记录信息。由于本例中创建了三万个socket，而一个socket(即一个tcp连接)就对应一个文件描述符(fd)
select
- select 会把所有要管理的 socket 的 fd (文件描述符，简单理解就是通过 fd 能找到这个 socket)拷贝到内核中。
- 此时要遍历所有 socket，看看是否有感兴趣的事件发生。如果没有一个 socket 有事件发生，那么 select 的线程就需要让出 cpu 阻塞等待，这个等待可以是不设置超时时间的死等，也可以是设置 timeout 的有超时时间的等待。
- 如果select线程等待过程中socket收到了数据则会唤醒select线程。
  - 每个 socket 有个属于自己的睡眠队列，select 会安排一个内应，即在被管理的 socket 的睡眠队列里面塞入一个 entry。
  - 当 socket 接收到网卡的数据后，就会去它的睡眠队列里遍历 entry，调用 entry 设置的 callback 方法，这个 callback 方法里就能唤醒 select 。
  - 所以select 在每个被它管理的 socket 的睡眠队列里都塞入一个与它相关的 entry，这样不论哪个 socket 来数据了，它立马就能被唤醒。
- 唤醒的select并不知道具体是哪个socket来数据了，所以只能遍历所有socket ，看看是哪个scoket来数据了，然后把所有来数据的socket封装成事件返回。
- 缺点：
  - 因为被管理的 socket fd 需要从用户空间拷贝到内核空间，为了控制拷贝的大小而做了限制，即每个 select 能监控（拷贝）的 fds 集合大小只有1024。
  - 每次调用select，都需把fd集合从用户态拷贝到内核态，fd很多时开销就很大
  - 每次调用select都需在内核遍历传递进来的所有fd，fd很多时开销就很大
poll
- 和select类似，但是也有部分区别
  - 实现机制不同
    - select使用轮询的方式来查询文件描述符上是否有事件发生，而poll则使用链表来存储文件描述符，查询时只需要对链表进行遍历。
  - 文件描述符的数量限制不同
    - select最大支持1024个文件描述符，poll没有数量限制，可以支持更多的文件描述符。
  - 阻塞方式不同
    - select会阻塞整个进程，而poll可以只阻塞等待的文件描述符。
  - 可移植性不同
    - select是POSIX标准中的函数，可在各种操作系统上使用，而poll是Linux特有的函数，不是标准的POSIX函数，在其他操作系统上可能不被支持。
- poll和select存在同样的缺点
epoll
- select和poll都只提供一个函数，select或poll函数。而epoll提供了三个函数。
- 优化点
  - epoll_create：创建一个epoll句柄
  - epoll_ctl：向epoll对象中添加、修改、删除要管理的连接
    - 如果你的epoll要新加或删除一个 socket来管理，调用 epoll_ctl，会把fd拷贝进内核，而非在epoll_wait时重复拷贝。epoll保证每个fd在整个过程中只会拷贝一次
    - 在内核里面就维护了此epoll管理的socket集合，这样就不用每次调用的时候都得把所有管理的fds拷贝到内核了。
    - 这个socket集合是用红黑树实现的。
  - epoll_wait：等待事件的产生，收集在 epoll 监控的事件中已经发送的事件，类似于 select() 调用。
    - 如果成功，表示返回需要处理的事件数目
    - 如果返回0，表示已超时
    - 如果返回-1，表示失败
  - 与select不同的是，引入了一个ready_list双向链表，callback里面会把当前的socket加入到ready_list然后唤醒epoll。这样被唤醒的epoll只需要遍历ready_list即可，这个链表里一定是有数据可读的socket，相比于select就不会做无用的遍历了。
  - 同时收集到的可读的fd按理是要拷贝到用户空间的，这里又做了个优化，利用了mmap，让用户空间和内核空间映射到同一块内存中，这样就避免了拷贝。
- ET
  - 边缘触发：只有所监听的事件状态改变或者有事件发生时，epoll_wait才会被触发。
    - epoll边沿触发时，假设⼀个客户端发送100字节的数据，⽽服务器设定read每次读取20字节，那么⼀次触发只能读取20个字节，然后内核调⽤epoll_wait直到下⼀次事件发⽣，才会继续从剩下的80字节读取20个字节，由此可见，这种模式其⼯作效率⾮常低且⽆法保证数据的完整性，因此边沿触发不会单独使⽤。
    - 边沿触发通常与⾮阻塞IO⼀起使⽤，其⼯作模式为：epoll_wait触发⼀次，在while（1）循环内非阻塞IO读取数据，直到缓冲区数据为空（保证了数据的完整性），内核才会继续调⽤epoll_wait等待事件发⽣。
  - 优点
    - 每次epoll_wait只⽤触发⼀次，就可以读取缓冲区的所有数据，⼯作效率⾼，⼤⼤提升了服务器性能
  - 缺点
    - 数据量很⼩时，⾄少需要调⽤两次⾮阻塞IO函数，⽽边沿触发只⽤调⽤⼀次。
- LT
  - 水平触发：只要缓冲区有数据，epoll_wait就会⼀直被触发，直到缓冲区为空。是epoll默认的工作模式
  - 优点
    - 保证了数据的完整输出
  - 缺点
    - 当数据较⼤时，需要不断从⽤户态和内核态切换，消耗了⼤量的系统资源，影响服务器性能
  - 应用场景
    - 应⽤较少，⼀般⽤于连接请求较少及客户端发送的数据量较少的服务器，可⼀次性接收所有数据。
总结
- select，poll实现需要自己不断轮询所有fd集合，直到设备就绪，期间可能要睡眠和唤醒多次交替。而epoll其实也需要调用epoll_wait不断轮询就绪链表，期间也可能多次睡眠和唤醒交替，但是它是设备就绪时，调用回调函数，把就绪fd放入就绪链表中，并唤醒在epoll_wait中进入睡眠的进程。虽然都要睡眠和交替，但是select和poll在“醒着”的时候要遍历整个fd集合，而epoll在“醒着”的时候只要判断一下就绪链表是否为空就行了，这节省了大量的CPU时间。这就是回调机制带来的性能提升。
- select，poll每次调用都要把fd集合从用户态往内核态拷贝一次，并且要把current往设备等待队列中挂一次，而epoll只要一次拷贝，而且把current往等待队列上挂也只挂一次（在epoll_wait的开始，注意这里的等待队列并不是设备等待队列，只是一个epoll内部定义的等待队列）。这也能节省不少的开销。