ChatGPT基本原理

GPT:genrative pre-trained transformer(生成式预训练transfomer模型)

Transformer:一种特定类型的神经网络,一种机器学习模型

  • 当前主要应用于语音识别生成、图像处理等ai场景中
  • 可用来预测后续内容,主要基于概率分布形式对后续可能出现的文本片段给出概率分布
    在这里插入图片描述

GPT2和gpt3的区别在于

1.gpt2的神经网络参数较gpt3较小

chatgpt运行流程:

embedding->attention->MLPs->unembedding
在这里插入图片描述

1.embedding(编码):将单词转换成对应向量的过程,就叫embedding
  • 文本会被分割成不同的片段,这些片段被称作token,且每个token都会与一个向量所关联,即某些数字列表,换句话说,每个单词对应一个token,每个token又对应一个向量,共计有50257个token(或向量)组建了embedding matrix

  • 在这里插入图片描述

  • 这些向量也会在高维空间中被投射,主要根据向量里的元素个数来决定维度的多少

  • 通常相近的词语在投射到高维空间中的位置也是接近的

  • 通过所有单词对应编写好的编码矩阵(embedding matrix),文本会从编码矩阵中按顺序转换成对应的向量
    在这里插入图片描述

  • 值得注意的是,某一类型正反义的向量差与近似类型正反义向量差基本一致,如国王-王后在空间中对应的向量差基本和男人与女人的向量差一致【这取决于从某一个切片的横截面或者说某一权重矩阵与该高维向量的点积计算后的结果,如v(国王)点乘某一权重矩阵 - v(王后)点乘该权重矩阵 约= v(男人)点乘该权重矩阵 - v(女人)点乘该权重矩阵 】
    在这里插入图片描述

2.attention模块
  • 将上述的编码后的文本块代入到attention模块中,使得这些向量构成的文本块能够相互交流并且传递信息及更新他们的值
    在这里插入图片描述

  • 通过这些attention模块,能够进一步明确某个单词在上下文中具体的含义,如model在fasion model和machine learning model中的含义就可以依据上下文来明确此处model所指的具体含义。

3.MLPs(多层感知器)
  • 之后,经过attention模块更新后的文本块将经过多层感知器(multilayer perception)进行加工,需要注意的是,此处这些向量彼此之间将不会相互交流
    在这里插入图片描述
4.unembedding(解码)
  • 在经过不断的attention-MLPs的组合迭代后,到了最后一层会将最后一个末尾词进行概率预测,并进行解码输出
    在这里插入图片描述
    在这里插入图片描述

* 最后将新生成的词再返回到新的流程里,重复进行1-4的动作并生成新的词汇

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值