tips:B站ChatGPT详细解释视频–笔记记录
ChatGPT详细解释视频
1.基本名词
-
标量:单个的数值,只有大小而没有方向
-
向量:一组有序的数值,表示某种量的大小和方向
-
张量:向量的泛化,多维数组, 表示某种量的大小和方向
-
词向量:词的向量化,赋予一个词、字其一系列评分/取值,而多个词就组成了一个张量,其中GPT-3 175B 的词向量的长度为12288
-
Token:子词,可以共享单词之间的共同语义结构
-
对于中文来说,Token可以使词组、词、字、偏旁以及部首
-
超参数【事先设定的】、参数【训练过程自动习得】
-
GPT:迭代预测下一个词向量
-
transformer结构:Encoder–Decoder
更具体一点:
2.GPT总体结构
输入处理
解码器
可以看到GPT的解码器和transform模型结构相差一个解码注意力层
其中自注意力子层:1.捕捉输入序列的相互之间的依赖、相互之间的关系;2.捕捉全量的、长距离的输入序列的语义表示和语义依赖
前馈神经网络: 捕捉输入序列的整体的、隐藏的、复杂的、组合的语义表示
自注意力子层
多头自回归自注意力机制
注意力机制:输入序列和输出序列之间的注意力。
自注意力机制:输入序列自身。
自回归/单向/因果:只能看到自己左边的字。
多头:分成多个头,分别取注意不同的语义表示。
自注意力头处理过程:
自注意力层剩余部分处理:
前馈神经网络子层
输出处理:
参数计算