论文笔记整理:刘雅,天津大学硕士。
链接:
https://aaai.org/ojs/index.php/AAAI/article/view/6525
动机
近年来,随着计算机视觉以及自然语言处理技术的发展,多模态自动文摘技术逐渐成为学术界和工业界研究的热点。当前的多模态自动文摘受限于数据集本身的原因只能采用文本模态的负对数似然损失作为目标函数训练整个网络,同时利用注意力机制来辅助挑选图片。这种做法容易带来模态偏差的问题,即整个网络会倾向于优化文本生成的质量而忽视了图片的挑选过程。该论文提出了多模态基准指导的多模态自动文摘方法。基本想法是优化多模态摘要训练的目标函数,即在文本损失的基础上增加图片选择的损失函数。
亮点
论文亮点主要包括:
(1)提出一种新的评估指标,该论文是第一个从信息完整性的角度评估多模式摘要的方法,该方法学习了模型摘要和参考摘要的联合多模式表示形式。包含信息完整性的评估指标与人类判断的相关性更好。
(2)提出一种多模态损失函数,以多模态参考为指导,以利用摘要生成和图象选择中的损失
概念及模型
该方法由三部分组成:
首先利用数据集本身的特征将只有文本基准的训练数据扩展至多模态基准,主要采用两种方式,即直接使用输入图片的顺序对图片进行排序或者使用图片的文字描述与标准文本摘要参考答案之间的ROUGE值大小对输入图片进行排序。
在模型上添加图片判别器用于训练图片挑选的过程,模型的损失函数也由文本的损失函数及图片挑选的损失函数加权求和而成。
通过数据集中的