目录
• Dropout during training at every layer just before adding residual(Dropout正则化)
• Auto-regressive decoding with beam search and length penalties(自回归解码与束搜索和长度惩罚)
• Checkpoint averaging(检查点平均)
在训练期间,Transformer模型通常会保存多个检查点(即不同时间点的模型参数)。Checkpoint Averaging技巧是将这些检查点的参数进行平均,生成一个平均模型。这可以提高模型的泛化能力和鲁棒性,并减少过拟合的风险。
• ADAM optimizer(自适应矩估计优化器)
ADAM(Adaptive Moment Estimation)优化器是一种常用的优化算法,用于调整模型的参数以最小化损失函数。它结合了AdaGrad和RMSProp的优点,通过自适应地计算每个参数的学习率和动量,能够在训练过程中更有效地更新模型参数。
• Dropout during training at every layer just before adding residual(Dropout正则化)
Dropout是一种正则化技术,用于减少模型的过拟合。在Transformer模型中,Dropout被应用于每个层的输入,即在添加残差连接之前。这有助于随机地丢弃一部分神经元的输出,以减少它们之间的依赖关系,并增加模型的鲁棒性。
• Label smoothing(标签平滑)
标签平滑是一种用于改善模型训练和泛化能力的技巧。在Transformer模型中,当进行多类别分类任务时,传统的独热编码标签可能会导致过于自信的预测。通过标签平滑,将一部分概率质量从正确标签分配给其他标签,以减少模型的过拟合和提高泛化能力。
• Auto-regressive decoding with beam search and length penalties(自回归解码与束搜索和长度惩罚)
在生成目标序列时,Transformer模型通常使用自回归解码策略。这意味着模型每次生成一个单词时,将其作为输入,并使用生成的单词继续生成下一个单词,以此类推。为了得到更准确的生成结果,一种常用的策略是使用束搜索(beam search)来探索多个可能的生成序列,并根据得分进行选择。此外,为了避免生成过长的序列,可以使用长度惩罚来鼓励更短的输出序列。