【Go】重难点知识汇总

行者无疆xcc

已于 2025-04-24 17:15:45 修改

阅读量563

点赞数 8

分类专栏： Go 文章标签： go

于 2025-04-22 10:46:05 首次发布

本文链接：https://blog.csdn.net/a1026950076/article/details/147411812

版权

Go 专栏收录该内容

1 篇文章

订阅专栏

tips

统计代码行数的工具：cloc（Count Lines of Code）安装教程
待续…

《Go语言设计与实现》

在这里插入图片描述

一、编译原理

理解编译器的词法与语法解析、类型检查、中间代码生成以及机器码生成过程
想要了解Go语言的实现原理，理解它的编译过程就是一个没有办法绕开的事情
link

1. 调试源代码

修改源代码，然后/src/make.sh脚本会编译Go语言的二进制、工具链以及标准库和命令并将源代码和编译好的二进制文件移动到对应的位置上
- 编译好的二进制会存储在$GOPATH/src/github.com/golang/go/bin目录中。需要用绝对路径来访问和使用它
- $GOPATH/src/github.com/golang/go/bin/go run main.go
- 如果直接使用go run main.go，可能会使用包管理器安装的go二进制，得不到期望的结果
中间代码
- Go 语言编译器的中间代码具有静态单赋值（Static Single Assignment、SSA）的特性
掌握调试和自定义Go语言二进制的方法，可以帮助我们快速验证对Go语言内部实现的猜想
- 通过最简单粗暴的println函数可以调试Go语言的源码和标准库
- 如果想要研究源代码的详细编译优化过程，可以使用SSA中间代码深入研究Go语言的中间代码以及编译优化的方式
想了解Go语言的实现原理，阅读源代码是绕不开的过程

2. 将go语言源代码编译成汇编语言

go build -gcflags -S main.go

3. 编译过程涉及的术语和专业知识

抽象语法树（Abstract Syntax Tree、AST）
- 是源代码语法结构的一种抽象表示
- 用树状的方法表示编程语言的语法结构
- 以表达式 2 * 3 + 7 为例，编译器的语法分析阶段会生成如下图所示的抽象语法树
- 作为编译器常用的数据结构，抽象语法树抹去了源代码中不重要的一些字符 - 空格、分号或者括号等等
- 编译器在执行完语法分析之后会输出一个抽象语法树，这个抽象语法树会辅助编译器进行语义分析，我们可以用它来确定语法正确的程序是否存在一些类型不匹配的问题
静态单赋值（Static Single Assignment、SSA）
- 是中间代码的特性
- 如果中间代码具有静态单赋值的特性，那么每个变量就只会被赋值一次
```
x := 1   --> x_1
x := 2   --> x_2
y := x   --> y_1 = x_2
```
- y_1和x_1是没有任何关系的，所以在机器码生成时就可以省去x := 1的赋值，减少需要执行的指令优化这段代码
指令集
- 本地开发环境编译和运行正常的代码，在生产环境却无法正常工作，背后的原因有多种。不同机器使用的不同指令集可能是其中之一
- 复杂指令集（CISC）：通过增加指令的类型减少需要执行的指令数
- 精简指令集（RISC）：通过使用更少的指令类型完成目标的计算任务

4. 编译原理

源代码位置：src/cmd/compile

编译器的前端：承担词法分析、语法分析、类型检查和中间代码生成几部分工作
编译器的后端：负责目标代码的生成和优化。也就是将中间代码翻译成目标机器能够运行的二进制机器码

在这里插入图片描述

词法分析
- 所有的编译过程都是从解析代码的源文件开始的
- 词法分析作用就是解析源代码文件，它将文件中的字符串序列转换成Token序列，方面后面的处理和解析
- 一般会把执行词法分析的程序称为词法解析器（lexer）
- 词法分析会返回一个不包含空格、换行等字符的Token序列
```
SourceFile = PackageClause ";" { ImportDecl ";" } { TopLevelDecl ";" } .
```
语法分析
- 语法分析的输入是词法分析器输出的Token序列
- 语法分析器会按照顺序解析Token序列，该过程会将词法分析生成的Token按照编程语言定义好的文法（Grammar）自下而上或自上而下的规约，每一个Go的源代码文件最终会被归纳成一个SourceFile结构
- 语法分析会把 Token 序列转换成有意义的结构体，即语法树
```
"json.go": SourceFile {
    PackageName: "json",
    ImportDecl: []Import{
        "io",
    },
    TopLevelDecl: ...
}
```
- Token 到抽象语法树（AST）的转换过程会用到语法解析器，每一个 AST 都对应着一个单独的 Go 语言文件
- 抽象语法树中包括当前文件属于的包名、定义的常量、结构体和函数等
- 语法解析的过程中发生的任何语法错误都会被语法解析器发现并将消息打印到标准输出上，整个编译过程也会随着错误的出现而被中止
类型检查
- 当拿到一组文件的抽象语法树之后，Go 语言的编译器会对语法树中定义和使用的类型进行检查
- 类型检查会按照以下的顺序分别验证和处理不同类型的节点
```
1. 常量、类型和函数名及类型；
2. 变量的赋值和初始化；
3. 函数和闭包的主体；
4. 哈希键值对的类型；
5. 导入函数体；
6. 外部的声明；
```
- 通过对整棵抽象语法树的遍历，我们在每个节点上都会对当前子树的类型进行验证，以保证节点不存在类型错误
- 所有的类型错误和不匹配都会在这一个阶段被暴露出来，其中包括：结构体对接口的实现
- 类型检查阶段不止会对节点的类型进行验证，还会展开和改写一些内建的函数，例如 make 关键字在这个阶段会根据子树的结构被替换成 runtime.makeslice 或者 runtime.makechan 等函数
- Go 语言的很多关键字都依赖类型检查期间的展开和改写
中间代码生成
- 当我们将源文件转换成了抽象语法树、对整棵树的语法进行解析并进行类型检查之后，就可以认为当前文件中的代码不存在语法错误和类型错误的问题了
- Go 语言的编译器就会将输入的抽象语法树转换成中间代码
- 编译器会编译整个Go语言项目中的全部函数，这些函数会在一个编译队列中等待几个Goroutine的消费，并发执行的 Goroutine 会将所有函数对应的抽象语法树转换成中间代码
机器码生成
- 不同类型的 CPU 分别使用了不同的包生成机器码
- 根据目标的 CPU 架构生成机器码

编译

得到抽象语法树后会分九个阶段对抽象语法树进行更新和编译

抽象语法树会经历类型检查、SSA 中间代码生成以及机器码生成三个阶段

1. 检查常量、类型和函数的类型；
2. 处理变量的赋值；
3. 对函数的主体进行类型检查；
4. 决定如何捕获变量；
5. 检查内联函数的类型；
6. 进行逃逸分析；
7. 将闭包的主体转换成引用的捕获变量；
8. 编译顶层函数；
9. 检查外部依赖的声明；

5. 词法分析与语法分析

从Go语言的源代码出发详细分析Go语言的编译器是如何在底层实现词法和语法解析功能
- 词法分析器： cmd/compile/internal/syntax.scanner
- 语法分析器： cmd/compile/internal/syntax.parser
如何模拟人理解源代码的方式构建一个能够分析编程语言代码的程序
源代码在计算机眼中其实是一团乱码，一个由字符组成的、无法被理解的字符串，所有的字符在计算机看来并没有区别
为了理解这些字符，需要做的第一件事就是将字符串分组，降低理解字符串的成本，简化源代码的分析过程
词法分析就是将字符序列转换成标记Token序列的过程
Go语言中的Token类型，可以将语言中的元素分成几个不同的类别，分别是名称和字面量、操作符、分隔符和关键字

词法分析中的文法组成

1. N有限个非终结符的集合；
2. Σ有限个终结符的集合；
3. P有限个生产规则12的集合；
4. S非终结符集合中唯一的开始符号

文法分析方法
- 自顶向下分析
- 自底向上分析

6. 类型检查

强类型的编程语言在编译期间会有更严格的类型限制，也就是编译器会在编译期间发现变量赋值、返回值和函数调用时的类型错误
弱类型的编程语言在出现类型错误时可能会在运行时进行隐式的类型转换，在类型转换时可能会造成运行错误
Go 语言的编译器不仅使用静态类型检查来保证程序运行的类型安全，还会在编程期间引入类型信息，让工程师能够使用反射来判断参数和变量的类型
make和new这些内置函数其实并不会直接对应某些函数的实现，它们会在编译期间被转换成真正存在的其他函数

7. 中间代码生成

中间代码的生成过程是从 AST 抽象语法树到 SSA 中间代码的转换过程
在这期间会对语法树中的关键字再进行改写，改写后的语法树会经过多轮处理转变成最后的 SSA 中间代码
很多 Go 语言中的关键字和内置函数都是在这个阶段被转换成运行时包中方法的

8. 机器码生成

机器码的生成过程其实是对 SSA 中间代码的降级（lower）过程，在 SSA 中间代码降级的过程中，编译器将一些值重写成了目标 CPU 架构的特定值，降级的过程处理了所有机器特定的重写规则并对代码进行了一定程度的优化
如果一个编程语言想要在所有的机器上运行，它就可以将中间代码转换成使用不同指令集架构的机器码，这可比为不同硬件单独移植要简单的太多了
只需对汇编语言转机器指令的过程有所了解，遇到问题能快速定位即可