学习记录--GPT

最新推荐文章于 2024-07-23 21:42:00 发布

jonny的学习日记

最新推荐文章于 2024-07-23 21:42:00 发布

阅读量843

点赞数 22

分类专栏：模型学习记录文章标签：学习 gpt nlp AIGC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43728463/article/details/140540864

版权

模型学习记录专栏收录该内容

4 篇文章 0 订阅

订阅专栏

目录

2：transformer对叠层

1：预训练阶段

2：下游任务精调阶段（微调）

总体结构

1：输入层

Tokenization：文本输入首先经过分词处理，将文本转换为Token序列。这通常涉及将文本分割成单词、子词或其他基本单位。

Embedding：分词后的Token序列通过Embedding层转换为固定维度的向量表示。Embedding层将每个Token映射到一个高维空间中，捕捉其语义信息。

2：transformer对叠层

GPT的核心是多个Transformer解码器的堆叠。每个解码器都包含以下几个关键组件：

自注意力机制：自注意力机制允许模型在处理序列时关注不同位置的Token。通过计算Token之间的注意力权重，模型能够捕捉输入序列中的依赖关系，并为每个位置生成上下文相关的表示。

前馈神经网络：除了自注意力机制外，每个解码器还包含一个前馈神经网络。该网络对自注意力机制的输出进行进一步转换，以提取更高级别的特征。

残差连接和层归一化：为了提高模型的训练稳定性和效果，每个解码器都使用了残差连接和层归一化。这些技术有助于缓解梯度消失和梯度爆炸问题，并加速模型的收敛。

3：输出层

经过多个Transformer解码器堆叠处理后，最后一层的输出被用作生成文本的依据。对于每个位置，模型预测下一个Token的概率分布。这通常通过一个线性层和一个Softmax激活函数来实现，将解码器的输出转换为概率值。

中间核心就是12个Decoder（准确来说不是，只是类似而已，用Encoder也是可以实现的）

1：预训练阶段

在预训练阶段，模型使用大规模的无标注文本数据进行训练，以学习语言的统计规律和生成能力。通过自回归的方式，模型预测输入序列中的下一个Token，并最大化在训练数据上的似然性。7-2,7-3,7-4三个式子对应之前的GPT结构图，输出P(x)为输出，每个词被预测到的概率，再利用7-1式，计算最大似然函数，据此构造损失函数，即可以对该语言模型进行优化。

2：下游任务精调阶段（微调）

模型使用特定任务的标注数据进行训练，以适应各种NLP任务。通过在模型的顶部添加适当的输出层，并使用任务特定的目标函数进行训练，模型能够学习将输入文本映射到特定任务的输出空间

参考：

GPT模型总结【模型结构及计算过程_详细说明】_gpt结构-CSDN博客

神经网络算法：一文搞懂GPT（Generative Pre-trained Transformer）-CSDN博客

jonny的学习日记

关注

22
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
学习记录--GPT

GPT
复制链接

扫一扫

专栏目录

jonny的学习日记

博客等级

码龄6年

35
原创

258
点赞

470
收藏

1076
粉丝

关注

私信

热门文章

分类专栏

最新评论

一些关于Xshell docker的常用命令
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
一些关于Xshell docker的常用命令
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
一些关于Xshell docker的常用命令
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
一些关于Xshell docker的常用命令
CSDN-Ada助手: 推荐云原生入门技能树：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native
comsol学习---声学与振动建模-----1
夜～空～: 这个COMSOL案例库里面应该有吧

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。