论文浅尝 - AAAI2020 | 多模态基准指导的多模态自动文摘

最新推荐文章于 2022-04-08 15:33:39 发布

开放知识图谱

最新推荐文章于 2022-04-08 15:33:39 发布

阅读量1.9k

点赞数

文章标签：算法 python 计算机视觉机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/108957576

版权

本文介绍了AAAI2020一篇关于多模态自动文摘的研究，针对模态偏差问题，提出多模态基准指导的模型。该模型结合文本和图像损失函数，优化了摘要生成和图片选择。实验表明，模型在图片准确率和文本质量上有显著提升。

摘要由CSDN通过智能技术生成

论文笔记整理：刘雅，天津大学硕士。

链接：

https://aaai.org/ojs/index.php/AAAI/article/view/6525

动机

近年来，随着计算机视觉以及自然语言处理技术的发展，多模态自动文摘技术逐渐成为学术界和工业界研究的热点。当前的多模态自动文摘受限于数据集本身的原因只能采用文本模态的负对数似然损失作为目标函数训练整个网络，同时利用注意力机制来辅助挑选图片。这种做法容易带来模态偏差的问题，即整个网络会倾向于优化文本生成的质量而忽视了图片的挑选过程。该论文提出了多模态基准指导的多模态自动文摘方法。基本想法是优化多模态摘要训练的目标函数，即在文本损失的基础上增加图片选择的损失函数。

亮点

论文亮点主要包括：

（1）提出一种新的评估指标，该论文是第一个从信息完整性的角度评估多模式摘要的方法，该方法学习了模型摘要和参考摘要的联合多模式表示形式。包含信息完整性的评估指标与人类判断的相关性更好。

（2）提出一种多模态损失函数，以多模态参考为指导，以利用摘要生成和图象选择中的损失

概念及模型

该方法由三部分组成：

首先利用数据集本身的特征将只有文本基准的训练数据扩展至多模态基准，主要采用两种方式，即直接使用输入图片的顺序对图片进行排序或者使用图片的文字描述与标准文本摘要参考答案之间的ROUGE值大小对输入图片进行排序。
在模型上添加图片判别器用于训练图片挑选的过程，模型的损失函数也由文本的损失函数及图片挑选的损失函数加权求和而成。
通过数据集中的

最低0.47元/天解锁文章

开放知识图谱

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。