2024年最新Go分布式爬虫笔记(十七) 4月Day1_go 本地线程变量(1)，分享复习经验和后台开发面经

本文链接：https://blog.csdn.net/2401_84904997/article/details/138749716

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

这意味着每创建 1000 个线程就需要消耗 2GB 的虚拟内存，大大限制了可以创建的线程的数量（64 位的虚拟内存地址空间已经让这种限制变得不太严重）。

运行时也不能更改。

Go 语言中的协程

默认为 2KB
Go 语言中的协程栈在 Go 运行时的帮助下会动态检测栈的大小，并动态扩容。

上下文切换速度

线程切换的速度大约为 1~2 微秒
Go 语言中协程切换的速度则比它快数倍，为 0.2 微秒左右。

不过上下文切换的速度受到诸多因素的影响，会根据实际情况有所波动。

GMP

在 Go 源码中:

结构体 m 代表了操作系统线程。
结构体 m 中包含了特殊的调度协程 g0
g0绑定的逻辑处理器 P，绑定的用户协程 g 等重要结构。

type m struct {
  g0      \*g    // 特殊的调度协程g0
  p       puintptr // m当前对应的逻辑处理器P
  curg    \*g      // 当前m绑定的用户协程g
  tls   [6]uintptr // 线程局部存储
  ...
}

结构体 m 要与真实的操作系统线程绑定在一起，这就需要借助线程本地存储技术了。

和普通的全局变量对程序中的所有线程可见不同，线程本地存储中的变量只对当前线程可见。

因此，这种类型的变量可以看作是线程“私有”的。一般情况下，操作系统会使用 FS/GS 段寄存器存储线程本地变量。

在 Go 语言中，并没有直接暴露线程本地存储的编程方式，但是 Go 语言运行时使用线程本地存储，将具体操作系统的线程与运行时代表线程的 m 结构体绑定在了一起。线程本地存储的数据实际是结构体 m 中 m.tls 的地址，同时，m.tls[0]会存储当前线程正在运行的协程 g 的地址，因此在任意一个线程内部，通过线程本地存储，都可以在任意时刻获取绑定在当前线程上的协程 g、结构体 m、逻辑处理器 P、特殊协程 g0 等的信息。

线程局部存储帮助我们实现了结构体 m 与实际线程的绑定，不过此外，我们还需要实现结构体 m 与某一个协程的绑定，这就要用到调度器了。在 Go1.1 之前的源码实现中，调度器还是用 C 语言实现的，无论是线程启动还是协程切换时，都会执行调度函数 schedule，schedule 再从全局队列中获取可运行的协程并予以执行。

static void
schedule(G \*gp)
{
 ...
 schedlock();
 if(gp != nil) {
  ...
  switch(gp->status){
  case Grunning:
   gp->status = Grunnable;
   gput(gp);
   break;
  }
 
 gp = nextgandunlock();
 gp->readyonstop = 0;
 gp->status = Grunning;
 m->curg = gp;
 gp->m = m;
 ...
 runtime·gogo(&gp->sched, 0);
}

不足:

调度器每次获取可以运行的协程都需要加锁
随着 CPU 核心数量的增多，这种方式缺少扩展性的问题会越来越明显。
当协程执行系统调用时，线程还会整个被堵塞住。

优化:

引入了逻辑处理器 P。逻辑处理器 P 和唯一的线程 M 绑定，逻辑处理器 P 可以在本地存储协程的运行队列，同时也保留了全局的运行队列

逻辑处理器 P 与 M 绑定的特性决定了，正常情况下有多少个 P 就会有对应数量的线程存在。

假设现在有 4 个 P，我们就知道有 4 个线程。这代表着能够并行执行的协程数量。
默认情况下，Go 运行时会读取 CPU 核心的数量，并让创建的逻辑处理器 P 的数量和机器 CPU 核心的数量相同。

当然，我们也可以通过配置环境变量中的 GOMAXPROCS 来指定 P 的数量。

‍

另外，每一个 M 结构中都存储了一个特殊的协程 g0，协程 g0 运行在操作系统的线程栈上，它的主要作用是执行协程调度的一系列运行时代码，一般的协程则负责无差别地执行用户代码。

很显然，执行用户代码的任何协程都不适合进行全局调度。当用户协程退出或者被抢占时，意味着需要重新执行协程调度，这时，我们需要从用户协程 g 切换到协程 g0，这样才能完成协程的调度。

协程经历从 g→g0→g 的过程之后，就完成了一次调度循环。和线程类似，协程切换的过程叫作协程的上下文切换。

当某一个协程 g 执行上下文切换时，需要保存当前协程的执行现场，才能够在后续切换回 g 协程时正常执行。协程的执行现场存储在 g.gobuf 结构体中，g.gobuf 结构体主要保存 CPU 中几个重要的寄存器值，分别是 rsp、rip、rbp。

type gobuf struct {
  // 保存CPU 的rsp 寄存器的值
  sp uintptr
  // 保存CPU 的rip 寄存器的值
  pc uintptr
  // 记录当前这个gobuf 对象属于哪个Goroutine
  g guintptr
  // 保存系统调用的返回值
  ret sys.Uintreg
  // 保存CPU 的rbp 寄存器的值
  bp uintptr
  ...
}

调度循环

从协程 g0 调度到协程 g:

schedule 函数: 处理的是具体的调度策略，也就是选择下一个要执行的协程
execute 函数: 执行的是一些具体的状态转移、协程 g 与结构体 m 之间的绑定等操作
gogo 函数；与操作系统有关的函数，用于完成栈的切换以及恢复 CPU 寄存器。

执行完这一步之后，协程就会切换到协程 g 去执行，当协程 g 主动让渡、被抢占或退出后，又会切换到协程 g0 开始下一轮调度。

在从协程 g 切换回协程 g0 时，mcall 函数会保存当前协程的执行现场，mcall 函数是和平台有关的汇编指令。

协程切换到 g0 后，根据切换原因的不同，会执行不同的函数。

如果是用户调用 Gosched 函数主动让渡执行权，就会执行 gosched_m 函数；
如果协程已经退出，则执行 goexit 函数，将协程 g 放入 p 的 freeg 队列，方便下次重用。

执行完毕后，运行时再次调用 schedule 函数开始新一轮的调度循环，从而形成一个完整的闭环，循环往复。

调度算法

调度的核心策略位于 schedule 函数中。

// runtime/proc.gofunc 
schedule() {
  ...
}

由于程序中不可能同时执行成千上万个协程，因此，那些等待被调度的协程就存储在了运行队列中。

Go 语言调度器将运行队列分为局部运行队列与全局运行队列。

局部运行队列是每个 P 特有的长度为 256 的数组。这个数组模拟了一个循环队列

type p struct {
  // 使用数组实现的循环队列
  runq [256]guintptr
  runnext guintptr
}

+ runqhead 标识了循环队列的开头
+ runqtail 标识了循环队列的末尾。
+ 每次将 G 放入本地队列时，都是从循环队列的末尾插入，而获取 G 时则是从循环队列的头部获取。
+ 除此之外，在每个 P 内部还有一个特殊的 runnext 字段，它标识了下一个要执行的协程。
+ 如果 runnext 不为空，则会直接执行当前 runnext 指向的协程，不会再去 runq 数组中寻找。

一般的思路是:

先查找每个 P 局部的运行队列，当获取不到局部运行队列时，再从全局队列中获取。
但是这种方法可能存在一个问题，如果只是循环往复地执行局部运行队列中的 G，那么全局队列中的 G 可能一直无法执行。
为了避免出现这种情况，Go 语言调度器制定了一种策略：P 每执行 61 次调度，就需要从全局运行队列中查找一批协程，分配给本地运行队列。


if _g_.m.p.ptr().schedtick%61 == 0 && sched.runqsize > 0 {
  lock(&sched.lock)
  // 从全局运行队列中获取1 个G
  gp = globrunqget(_g_.m.p.ptr(), 1)
  unlock(&sched.lock)
}

如果本地运行队列已经满了，无法处理全局运行队列中的协程怎么办？

如果本地运行队列满了，那么调度器会将本地运行队列的一半放入全局运行队列。这就确保了当程序中有很多协程时，每个协程都有执行的机会。

如果局部运行队列和全局运行队列中都找不到可用的协程，这时，调度器会寻找当前是否有已经准备好运行的网络协程。

runtime.netpoll 函数会获取当前可运行的协程列表，返回第一个可运行的协程，并通过 injectglist 函数将其余协程放入全局运行队列等待被调度。

当局部运行队列、全局运行队列以及准备就绪的网络列表中都找不到可用协程时，调度器就需要从其他 P 的本地队列中窃取可用的协程来执行了。

‍

由于所有的 P 都存储在全局的 allp []*p 中，一种可以想到的简单的方法就是循环遍历 allp，找到可用的协程，然后去窃取协程。但是这种方法很显然缺少公平性，在数组前面的 P 将会被窃取得更多。

Go 语言采取了一种独特的方式，它的代码位于 findrunnable 函数中。findrunnable 函数尝试循环 4 次，并随机遍历 allp 数组，找到可窃取的 P 就立即窃取并返回。

func findrunnable() (gp \*g, inheritTime bool) {
   for i := 0; i < 4; i++ {
      for enum := stealOrder.start(fastrand()); !enum.done(); enum.next()
      {
         ...
      }
   }
}

我们用一个例子来说明一下随机调度算法的原理。
假设一共有 8 个 P

fastrand 函数会借助随机算法选择一个数并对 8 取模，假设最后结果为 6。
找到一个比 8 小且与 8 互质的数。比 8 小且与 8 互质的数有 4 个：coprimes=[1,3,5,7]，代码中取 coprimes[6%4] = 5，这 4 个数中任取一个都有相同的数学特性。计算过程为：

(6+5) %8 = 3
(3+5) %8 = 0 (0+5) %8 = 5 (5+5) %8 = 2 (2+5) %8 = 7 (7+5) %8 = 4 (4+5) %8 = 1
(1+5) %8 = 6

可以看到，这里将上一个计算的结果作为下一个计算的条件，这就保证了一定会遍历到 allp 数组中所有的 P。
3. 找到要窃取的 P 之后就可以正式开始窃取了，这部分的核心代码位于 runqgrab 函数中。窃取的核心逻辑比较简单，将要窃取的 P 本地运行队列中 Goroutine 个数的一半放入自己的运行队列中。