[文献阅读]—An Empirical Investigation of Word Alignment Supervision for Zero-Shot Multilingual NMT

最新推荐文章于 2022-07-03 23:58:29 发布

Muasci

最新推荐文章于 2022-07-03 23:58:29 发布

阅读量184

点赞数

分类专栏：文献阅读之家文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jokerxsy/article/details/121995723

版权

文献阅读之家专栏收录该内容

51 篇文章 4 订阅

订阅专栏

前言

在这里插入图片描述
论文地址https://aclanthology.org/2021.emnlp-main.664.pdf

前人工作&存在问题

在多语言机器翻译中，前人通过1. 在source端开头加入language tag；2. 给token embedding加上language embedding来给模型提供语种信息。有两个缺点：

语言信息不强，被忽略之后，target端翻译出错误的语种。（原文说的是对于没有见过的语言对的off-target问题）
训练的稳定性不强

本文贡献

本文考虑language tag的情形。
利用对cross-attention模块得到的attention矩阵，和外部得到的对齐矩阵进行显式的对齐，加强对language tag的关注。

具体方法

第一步：对于训练样本source（M个token）-target（N个token），利用外部工具awesome-align得到MxN对齐矩阵。然后取出cross-attention模块的attention矩阵，给总的损失函数加入KL散度的监督（视一行为一个单词对其它所有单词的概率分布，最后需要对行取平均）

在这里插入图片描述

公式1 KL散度

在这里插入图片描述

公式2 总loss

attention矩阵需要经过softmax得到概率，由于对齐的稀疏性，文中使用α-entmax function代替之。
模型的输入是< target_language > source sentence + target sentence，因此可以选择三种外部对齐策略：source word-source word\language label-target word\两者结合

具体实验

TED benchmark上的supervised、zero-shot结果

3、4、5分别对应对齐策略1、2、3。
以2为baseline，发现3、4反而下降，5好！
在这里插入图片描述

图1 TED的结果

WMT2018 benchmark上的supervised、zero-shot结果

在高资源的情境下，bilingual(0)的效果最好，其它效果和TED差不多。

在这里插入图片描述

图2 WMT2018的结果

OPUS-100

虽然比不过MATT+LALN+LALT，但还是有效的。
在这里插入图片描述

图3 OPUS-100的结果

问题

word alignment也是一个研究方向：https://arxiv.org/abs/2101.08231

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[文献阅读]—An Empirical Investigation of Word Alignment Supervision for Zero-Shot Multilingual NMT

前言论文地址https://aclanthology.org/2021.emnlp-main.664.pdf前人工作&存在问题在多语言机器翻译中，前人通过1. 在source端开头加入language tag；2. 给token embedding加上language embedding来给模型提供语种信息。有两个缺点：语言信息不强，被忽略之后，target端翻译出错误的语种。（原文说的是对于没有见过的语言对的off-target问题）训练的稳定性不强本文贡献本文考虑langua
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。