3-9 Transformer结构--优化Tricks

笨笨sg

已于 2023-11-14 20:22:17 修改

阅读量499

点赞数 1

CC 4.0 BY-SA版权

分类专栏：清华NLP——刘知远团队大模型公开课（学习笔记）文章标签： transformer 深度学习人工智能

于 2023-11-14 20:22:01 首次发布

本文链接：https://blog.csdn.net/a131529/article/details/134407108

清华NLP——刘知远团队大模型公开课（学习笔记）专栏收录该内容

26 篇文章

订阅专栏

本文介绍了Transformer模型中的关键优化技术，如检查点平均以提高泛化，ADAM优化器用于高效参数调整，Dropout正则化减少过拟合，标签平滑增强泛化，以及自回归解码结合束搜索和长度惩罚以改进生成质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

• Checkpoint averaging（检查点平均）

• ADAM optimizer（自适应矩估计优化器）

• Dropout during training at every layer just before adding residual（Dropout正则化）

• Label smoothing（标签平滑）

• Auto-regressive decoding with beam search and length penalties（自回归解码与束搜索和长度惩罚）

• Checkpoint averaging（检查点平均）

在训练期间，Transformer模型通常会保存多个检查点（即不同时间点的模型参数）。Checkpoint Averaging技巧是将这些检查点的参数进行平均，生成一个平均模型。这可以提高模型的泛化能力和鲁棒性，并减少过拟合的风险。

• ADAM optimizer（自适应矩估计优化器）

ADAM（Adaptive Moment Estimation）优化器是一种常用的优化算法，用于调整模型的参数以最小化损失函数。它结合了AdaGrad和RMSProp的优点，通过自适应地计算每个参数的学习率和动量，能够在训练过程中更有效地更新模型参数。

• Dropout during training at every layer just before adding residual（Dropout正则化）

Dropout是一种正则化技术，用于减少模型的过拟合。在Transformer模型中，Dropout被应用于每个层的输入，即在添加残差连接之前。这有助于随机地丢弃一部分神经元的输出，以减少它们之间的依赖关系，并增加模型的鲁棒性。

• Label smoothing（标签平滑）

标签平滑是一种用于改善模型训练和泛化能力的技巧。在Transformer模型中，当进行多类别分类任务时，传统的独热编码标签可能会导致过于自信的预测。通过标签平滑，将一部分概率质量从正确标签分配给其他标签，以减少模型的过拟合和提高泛化能力。

• Auto-regressive decoding with beam search and length penalties（自回归解码与束搜索和长度惩罚）

在生成目标序列时，Transformer模型通常使用自回归解码策略。这意味着模型每次生成一个单词时，将其作为输入，并使用生成的单词继续生成下一个单词，以此类推。为了得到更准确的生成结果，一种常用的策略是使用束搜索（beam search）来探索多个可能的生成序列，并根据得分进行选择。此外，为了避免生成过长的序列，可以使用长度惩罚来鼓励更短的输出序列。