万字长文解读深度学习——GPT、BERT、T5

说明:
💡💡💡本文后续更新和完善将在新账号展开,请移步新地址:深度学习笔记——GPT、BERT、T5


历史文章

机器学习

机器学习笔记——损失函数、代价函数和KL散度
机器学习笔记——特征工程、正则化、强化学习
机器学习笔记——30种常见机器学习算法简要汇总
机器学习笔记——感知机、多层感知机(MLP)、支持向量机(SVM)
机器学习笔记——KNN(K-Nearest Neighbors,K 近邻算法)
机器学习笔记——朴素贝叶斯算法
机器学习笔记——决策树
机器学习笔记——集成学习、Bagging(随机森林)、Boosting(AdaBoost、GBDT、XGBoost、LightGBM)、Stacking
机器学习笔记——Boosting中常用算法(GBDT、XGBoost、LightGBM)迭代路径
机器学习笔记——聚类算法(Kmeans、GMM-使用EM优化)
机器学习笔记——降维

深度学习

深度学习笔记——优化算法、激活函数
深度学习——归一化、正则化
深度学习——权重初始化、评估指标、梯度消失和梯度爆炸
深度学习笔记——前向传播与反向传播、神经网络(前馈神经网络与反馈神经网络)、常见算法概要汇总
深度学习笔记——卷积神经网络CNN
深度学习笔记——循环神经网络RNN、LSTM、GRU、Bi-RNN
深度学习笔记——Transformer
深度学习笔记——3种常见的Transformer位置编码
深度学习笔记——GPT、BERT、T5
深度学习笔记——ViT、ViLT
深度学习笔记——DiT(Diffusion Transformer)
深度学习笔记——多模态模型CLIP、BLIP
深度学习笔记——AE、VAE
深度学习笔记——生成对抗网络GAN
深度学习笔记——模型训练工具(DeepSpeed、Accelerate)
深度学习笔记——模型压缩和优化技术(蒸馏、剪枝、量化)

GPT(Generative Pre-trained Transformer)、BERT(Bidirectional Encoder Representations from Transformers)和T5(Text-To-Text Transfer Transformer)都是基于Transformer架构的自然语言处理模型,但它们在结构、训练方式和应用场景上有显著的区别。

一、GPT

GPT的全称是“生成式预训练模型”,其主要设计思想是通过大规模的语言建模任务进行预训练,并通过微调来解决下游的具体任务。GPT的结构特点如下:

  1. Transformer解码器架构

    • GPT使用的是Transformer的**解码器(Decoder)**部分。这个架构主要由自注意力机制(self-attention)和前馈神经网络(Feedforward Neural Networks)组成。解码器可以处理序列数据,生成新的序列,因此适合生成任务,如文本生成。
  2. 单向(Autoregressive)语言模型

    • GPT是单向模型,即只能从左到右生成词语。输入的每个词只能依赖于前面的词,不能看后面的词。这种设计使得它在处理语言生成任务时很有效,但在理解句子整体时略显不足。
  3. 预训练任务

    • 预训练阶段,GPT通过自回归的语言建模任务进行训练,目标是预测句子中下一个词。然后,针对不同任务(如文本分类、问答等)进行微调。
  4. 适合生成任务

    • GPT强大的生成能力,自回归的生成文本,每次生成一个词并将其作为输入,再生成下一个词。这种方式使它特别适合生成连贯的段落和长文本。

为何采用单向Transformer

使用的是解码器自回归生成模式
使用了Masked Self-Attention(所谓Masked,即遮蔽的意思),即句子中的每个词,都只能对包括自己在内的前面所有词进行Attention,这就是单向Transformer。

基于Transformer的优化

除了仅使用解码器堆叠的架构、未来遮蔽(自回归语言模型)外,还做了下面的优化。

层归一化位置

  • 在标准 Transformer 中,层归一化(Layer Normalization)通常放在残差连接和前馈网络之后,而 GPT 将层归一化放在残差连接之前,称为 Pre-Layer Normalization
  • 这种调整有助于在深层网络中保持梯度的稳定性,并减轻训练深度模型时梯度消失的问题。

位置编码方式的改进

  • GPT 最初使用的绝对位置编码(如 GPT-2 和 GPT-3 中使用的简单绝对位置编码),后续的 GPT-4 等新版本采用了 混合位置编码旋转位置编码 等技术,使得位置编码对更长序列具有更好的泛化性。
  • 这些改进帮助模型在长文本和复杂结构的文本上表现更好。

后续改进:指令微调和人类反馈强化学习(RLHF)

  • 在 GPT-3.5 和 GPT-4 中,引入了 指令微调基于人类反馈的强化学习(RLHF)。通过在人类指令和偏好的数据上微调模型,使其在对话、问答等任务中更符合用户意图。
  • RLHF 训练方法提高了生成文本的自然性和用户满意度,使得模型在提供建议和解释复杂问题时更加精确。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值