Align and Attend: Multimodal Summarization with Dual Contrastive Losses

Align and Attend: Multimodal Summarization with Dual Contrastive Losses

时间:2023年

总结:
1、三个嵌入(Feature embedding, Position embedding , Segment embedding)
2、多模态对准架构
3、三个损失函数



前言

多模态摘要的目标是从不同模态中提取最重要的信息以形成摘要。与单模态摘要不同,多模态摘要任务明确利用跨模态信息来帮助生成更可靠和高质量的摘要。然而,现有的方法无法利用不同模态之间的时间对应关系,并且忽略了不同样本之间的内在相关性。为了解决这个问题,我们引入了对齐和关注多模态汇总(A2Summ),这是一种基于统一多模态变压器的模型,可以有效地对齐和关注多模态输入。此外,我们提出了两种新颖的对比损失来对样本间和样本内相关性进行建模。对两个标准视频摘要数据集(TVSum 和 SumMe)和两个多模态摘要数据集(Daily Mail 和 CNN)的大量实验证明了 A2Summ 的优越性,在所有数据集上实现了最先进的性能。此外,我们收集了一个大规模多模态摘要数据集 BLiSS,其中包含直播视频和带注释摘要的转录文本。

代码地址:https://boheumd.github.io/A2Summ/

总结:1. 对齐;2.两种损失函数(样本间,样本内);3.收集新数据集


1. 介绍

随着多模态学习的发展,多模态概括越来越受到关注[1-9]。与视频摘要[10-17]和文本摘要[18-22]等传统的单模态摘要任务不同,多模态摘要旨在利用不同模态的信息生成摘要。随着在线内容(例如新闻、直播、视频博客等)数量的爆炸性增长,多模态摘要可以应用于许多现实世界的应用中。它为用户提供汇总信息,这对于直播和产品评论视频等冗余长视频特别有用。

以前的多模态摘要方法[2,4,23,24]利用附加模态信息,但只能生成主要模态摘要,即视频摘要或文本摘要,严重限制了附加模态中互补优势的使用。最近,多项研究 [1,6,25,26] 探索了具有多模态输出的多模态摘要(MSMO),其目的是使用联合模型生成视频和文本摘要。与以前仅生成单峰摘要的方法相比,MSMO 提供了更好的用户体验,并以更简单、更快捷的方式获取有用信息。然而,我们发现现有的MSMO方法仍然存在以下局限性。首先,即使两种模式一起学习,不同模式之间的对应关系也没有被利用。例如,给定沿时间轴自动匹配的视频及其文字记录,现有方法没有利用相互时间对齐信息并单独处理两种模态。其次,以前的工作采用简单的策略通过序列建模和注意力操作来建模跨模态相关性[1,4,25,25,26,26],这需要大量难以获得的带注释的多模态数据。

总结:以前的研究,现在的研究:MSMO(未利用对应关系;大量带注释的多模态数据难以获得)

受上述观察的启发,我们提出了一种基于统一 Transformer 模型的多模态摘要的新颖架构,如图 1 所示。首先,为了利用不同模态之间的对齐信息,我们提出了对齐引导的自注意力模块来对齐视频和文本模态之间的时间对应关系,并以统一的方式融合跨模态信息。其次,受到自监督训练[27-29]成功的启发,利用同一视频内和不同视频之间内在的跨模态相关性,我们提出了结合样本间和样本内的双重对比损失-样本对比损失,以不同粒度的跨模态相关性建模。具体来说,样本间对比损失应用于批次内的不同样本对,它利用每个视频文本对之间的内在相关性,并将它们与剩余的不匹配样本进行对比,以提供更多的训练监督。同时,样本内对比损失在每个样本对中运行,它利用了真实视频和文本摘要之间的相互相似性,并将正特征与硬负特征进行对比。
figure1
图 1. A2Summ 是一个统一的多模态摘要框架,它在利用时间对应(例如视频和文字记录)的同时对齐和处理多模态输入,并输出选定的重要帧和句子作为摘要。

总结:首先,新的跨模态融合方式;其次,样本间和样本内的对比损失。

为了促进多模态信息的长视频摘要研究,我们还从网络上收集了大规模的直播视频数据集。直播正在快速增长,而直播视频的摘要仍然是一个尚未开发的领域,潜力巨大。以前的视频摘要数据集由场景转换变化很大的短视频组成。相反,直播视频明显更长(以小时为单位而不是以分钟为单位),并且视频内容随着时间的推移变化得更慢,这使得摘要任务变得更加困难。此外,还缺乏专注于文字摘要的带注释数据集,这可以作为直播视频摘要的一个很好的补充。因此,我们收集了一个包含直播视频和文字记录的大规模多模态摘要数据集,这些数据集都通过选择重要的帧和句子来用真实摘要进行注释。

总结:收集了新的数据集

总而言之,我们的贡献包括:

  • 我们提出了A2Summ,一种基于transformer的统一架构,用于多模态汇总。它可以处理具有时间对应关系的多模态输入,这是以前的工作所忽略的。

  • 我们提出了双重对比损失,可以解释不同级别的跨模式信息建模。对多个数据集的广泛实验证明了我们设计的有效性和优越性。

  • 收集大规模Behance LiveStream Summarization (BLiSS) 数据集,其中包含带有多模式摘要的直播视频和文字记录。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值