ChatGPT基础知识、处理流程和参数(1)


tips:B站ChatGPT详细解释视频–笔记记录
ChatGPT详细解释视频

1.基本名词
  • 标量:单个的数值,只有大小而没有方向

  • 向量:一组有序的数值,表示某种量的大小和方向

  • 张量:向量的泛化,多维数组, 表示某种量的大小和方向

  • 词向量:词的向量化,赋予一个词、字其一系列评分/取值,而多个词就组成了一个张量,其中GPT-3 175B 的词向量的长度为12288

  • Token:子词,可以共享单词之间的共同语义结构

  • 对于中文来说,Token可以使词组、词、字、偏旁以及部首

  • 超参数【事先设定的】、参数【训练过程自动习得】

  • GPT:迭代预测下一个词向量

  • transformer结构:Encoder–Decoder

    更具体一点:

2.GPT总体结构
输入处理

在这里插入图片描述

解码器

可以看到GPT的解码器和transform模型结构相差一个解码注意力层
在这里插入图片描述

其中自注意力子层:1.捕捉输入序列的相互之间的依赖、相互之间的关系;2.捕捉全量的、长距离的输入序列的语义表示和语义依赖

前馈神经网络: 捕捉输入序列的整体的、隐藏的、复杂的、组合的语义表示

自注意力子层

在这里插入图片描述

多头自回归自注意力机制

注意力机制:输入序列和输出序列之间的注意力。

自注意力机制:输入序列自身。

自回归/单向/因果:只能看到自己左边的字。

多头:分成多个头,分别取注意不同的语义表示。

自注意力头处理过程:

在这里插入图片描述

自注意力层剩余部分处理:

在这里插入图片描述

前馈神经网络子层

在这里插入图片描述

输出处理:

在这里插入图片描述

参数计算

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值