（九十七）：Gumbel-Attention for Multi-modal Machine Translation

Laura_Wangzx

已于 2023-06-19 20:08:13 修改

阅读量93

点赞数

分类专栏： “情感分析”研究方向论文-精读总结文章标签：机器翻译人工智能自然语言处理

于 2022-07-17 21:37:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37486501/article/details/125794831

版权

“情感分析”研究方向论文-精读总结专栏收录该内容

88 篇文章 197 订阅 ¥19.90 ¥99.00

订阅专栏

出处：CoRR abs/2103.08862 (2021)
代码：
题目：多模态机器翻译的Gumbel-Attention
主要内容：

Abstract

多模态机器翻译通过引入视觉信息来提高翻译质量。然而，现有的MMT模型忽略了图像会带来与文本无关的信息的问题，给模型造成很大的噪声，影响翻译质量。本文提出了一种用于多模态机器翻译的新颖的Gumbel-Attention算法，该算法从图像特征中选择与文本相关的部分。
具体来说，与以往的基于注意的方法不同，我们首先使用可微方法来选择图像信息，并自动去除图像特征中无用的部分。
通过Gumbel-Attention得分矩阵和图像特征，生成图像感知文本表示。
然后，我们用多模态编码器分别对文本表示和图像感知文本表示进行编码。最后，通过多模态门控融合得到编码器的最终输出。实验和案例分析证明，我们的方法保留了与文本相关的图像特征，其余部分有助于MMT模型产生更好的译文。

1. Introduction

多模态机器翻译(Multi-modal machine translation, MMT)是机器翻译的一个新研究领域，它不仅考虑文本信息，而且利用其他模态信息(主要是视觉模态信息)来提高翻译效果。在视觉模态信息的影响下，由于视觉信息融合的语境表征会减少歧义，因此翻译结果会更加准确。
最近的研究探索了各种基于seq2seq网络的MMT方法。[Huang et al.， 2016]将图像特征作为编码器中的步骤之一转换为文本，以便在解码时能够兼顾文本

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
（九十七）：Gumbel-Attention for Multi-modal Machine Translation

（九十七）：Gumbel-Attention for Multi-modal Machine Translation
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Laura_Wangzx 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。