3-9 Transformer结构--优化Tricks

目录

• Checkpoint averaging(检查点平均)

• ADAM optimizer(自适应矩估计优化器)

• Dropout during training at every layer just before adding residual(Dropout正则化)

• Label smoothing(标签平滑)

• Auto-regressive decoding with beam search and length penalties(自回归解码与束搜索和长度惩罚)


• Checkpoint averaging(检查点平均)

        在训练期间,Transformer模型通常会保存多个检查点(即不同时间点的模型参数)。Checkpoint Averaging技巧是将这些检查点的参数进行平均,生成一个平均模型。这可以提高模型的泛化能力和鲁棒性,并减少过拟合的风险。

• ADAM optimizer(自适应矩估计优化器)

        ADAM(Adaptive Moment Estimation)优化器是一种常用的优化算法,用于调整模型的参数以最小化损失函数。它结合了AdaGrad和RMSProp的优点,通过自适应地计算每个参数的学习率和动量,能够在训练过程中更有效地更新模型参数。 

• Dropout during training at every layer just before adding residual(Dropout正则化)

        Dropout是一种正则化技术,用于减少模型的过拟合。在Transformer模型中,Dropout被应用于每个层的输入,即在添加残差连接之前。这有助于随机地丢弃一部分神经元的输出,以减少它们之间的依赖关系,并增加模型的鲁棒性。

• Label smoothing(标签平滑)

         标签平滑是一种用于改善模型训练和泛化能力的技巧。在Transformer模型中,当进行多类别分类任务时,传统的独热编码标签可能会导致过于自信的预测。通过标签平滑,将一部分概率质量从正确标签分配给其他标签,以减少模型的过拟合和提高泛化能力。

• Auto-regressive decoding with beam search and length penalties(自回归解码与束搜索和长度惩罚)

        在生成目标序列时,Transformer模型通常使用自回归解码策略。这意味着模型每次生成一个单词时,将其作为输入,并使用生成的单词继续生成下一个单词,以此类推。为了得到更准确的生成结果,一种常用的策略是使用束搜索(beam search)来探索多个可能的生成序列,并根据得分进行选择。此外,为了避免生成过长的序列,可以使用长度惩罚来鼓励更短的输出序列。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值