神经机器翻译中的模型集成：经验之谈

最新推荐文章于 2025-02-08 21:49:58 发布

宇日辰

最新推荐文章于 2025-02-08 21:49:58 发布

阅读量871

点赞数 1

文章标签：机器翻译机器学习深度学习 python 人工智能

本文链接：https://blog.csdn.net/qq_42734797/article/details/119950751

版权

本文探讨了集成学习在神经机器翻译(NMT)中的实践，包括模型参数平均和预测结果融合两种方法。通过在不同规模数据集上的实验，发现模型参数平均通常在检查点5-20之间选择最佳，而预测结果融合则允许不同结构的模型融合。实验中，对WMT18中英数据进行预处理，筛选出12M平行语料和4M伪数据。结果显示，模型集成能显著提高翻译质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

集成学习是一种联合多个学习器进行协同决策的机器学习方法，通过整合多个学习器的决策结果可以有效减小预测结果的方差与偏置，显著提升模型的泛化能力，达到比单学习器更好的效果。对于神经机器翻译中的集成学习，实验室李北师兄的论文《On Ensemble Learning of Neural Machine Translation》针对NMT中的模型集成进行了大量的实验对比。本人也在不同规模的数据集上进行了尝试，将经验总结如下。

1 NMT中的模型集成方法

在模型层面，有模型参数平均和预测结果融合两种方法，两种方法相对独立，可以先做单个模型的检查点平均，再做不同模型的融合，都会带来提升。在数据层面，也可以通过finetuning和bagging两种策略构造子模型，这里暂不提及。

1.1 模型参数平均

即将单一模型最近保存的N个检查点的参数矩阵进行平均。

在fairseq中，可以通过以下工具实现：

python ~/fairseq/scripts/average_checkpoints.py \
    --inputs ckpts_dir --output ensemble_ckpt_path \
    --num-epoch-checkpoints N --checkpoint-upper-bound U

有几个问题：