[ACL2019 Best Paper] Bridging the Gap between Training and Inference for Neural Machine Translation

最新推荐文章于 2022-05-23 18:00:06 发布

晨阳2023

最新推荐文章于 2022-05-23 18:00:06 发布

阅读量1.6k

点赞数

分类专栏： NLP 论文文章标签： ac2019l NLP 神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iling5/article/details/101681405

版权

NLP 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

ACL2019 Best Long Paper解读：

目的：解决训练数据的Teacher Forcing问题
训练时使用true ground数据，而推断时使用预测结果作为上文，在训练时会造成overcorrection（同义词结果被过度矫正）
提出在训练时不仅仅使用true ground label，还会结合oracle word作为上下文，结构如下：

在原始NTM的基础上，在j时，输入j-1不再仅仅使用true groud label，而是会结合oracle word（soft机制），文章的重点在于如何选择oracle word，提出两种方式：词粒度和句子粒度。

使用oracle word机制的三步走：

Word-Level Oracle(WO)机制
直接拿预测概率最大的输出作为oracle word，下图及公式(9)所示

引入Gumbel noise正则项增加模型鲁棒性

Sentence-Level Oracle (SO)
在每个step时，对batch内样本做beam search decode，使用BLEU进行效果度量，得到最优目标句子，句子中第j-1个word作为SO

由于SO及来自于true ground又来自于beam search，所以需要二者长度对齐，对齐方式使用Force Decoding
Force Decoding：根据EOS作为判断，步骤如下：

Sampling with Decay 原则：训练开始的时候倾向于使用true ground label，训练后期倾向于选择oracle word
p控制true groud和oracle word的选择，衰减公式如下，e为epoch，μ为超参

结果展示：使用Transformat结果效果好用RNN，引入sentence oracle效果好于WO

总结：文章创新性地使用了soft label作为next step的输入，可以解决训练过程中的「过度矫正及误差累及」问题，该方法在NMT上提及，但感觉可以扩展应用到其他「联合训练的模型上」，第二个任务基于第一个任务的输出label，在训练阶段可采用此soft label选取的方法。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
[ACL2019 Best Paper] Bridging the Gap between Training and Inference for Neural Machine Translation

ACL2019 Best Long Paper解读：目的：解决训练数据的Teacher Forcing问题训练时使用true ground数据，而推断时使用预测结果作为上文，在训练时会造成overcorrection（同义词结果被过度矫正）提出在训练时不仅仅使用true ground label，还会结合oracle word作为上下文，结构如下：在原始NTM的基础上，在j时，输...
复制链接

扫一扫

专栏目录

博客等级

码龄16年

16
原创

42
点赞

183
收藏

14
粉丝

关注

私信

热门文章

分类专栏

NLP 2篇
机器学习 1篇
论文 2篇
开发 1篇
工具 1篇
图像 1篇
opencv 1篇
开发环境 1篇

最新评论

[AI医学] 领域指令微调样本生成框架OpenGPT与医疗健康大模型NHS-LLM
m0_62196601: 阿里云计算巢中有中文医疗相关数据集，该数据集医学知识库围绕疾病、药物、检查指标等构建，字段包括并发症，高危因素，组织学检查，临床症状，药物治疗，辅助治疗等，可以利用该数据集对ChatGLM或者LLaMA模型进行训练，提高模型在医疗领域的问答效果，数据集订阅和下载都很方便，访问地址（https://computenest.console.aliyun.com/dataset/service/service-b23ee2aeb8fa4784bd31/detail/cn-hangzhou?fromAddress=USER_NO_SING_IN_DATASET_SERVICE）
[评估指标] 敏感性/特异性/PPV/NPV等指标原理与计算方法
AbigaleXinn: 和R的精度好像不太一样诶
[踩坑记] CUDA环境下bitsandbytes安装报错/异常解决
Raymond冲: 请问大佬，Windows要怎么卸载干净呢，很多Nvidia相关的项，需要都删掉吗，还是只删掉带有版本号的
[AI医学] 医学领域几个微调&预训练大模型的项目
ITDaBao: 可以根据自己的数据来微调这些模型吗
[踩坑记] CUDA环境下bitsandbytes安装报错/异常解决
小肥羊真好吃ya: 可以check一下你在添加环境变量的时候是否看到了 cuda 10的相关信息，另外需要在修改的是全局的环境变量，而不是你个人用户下的环境变量

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。