论文阅读 MDMMT Multidomain Multimodal Transformer for Video

MDMMT Multidomain Multimodal Transformer for Video

在MSRVTT和LSMDC基准测试中,我们提出了一个新的文本视频检索任务,我们的模型大大优于以前的所有解决方案。此外,在两个数据集上获得了最先进的结果。这种多域的推广是通过不同视频标题数据集的正确组合来实现的。我们表明,在不同数据集上的训练可以提高彼此的测试结果。此外,我们检查了许多流行数据集之间的交叉点,发现MSRVTT在测试和训练部分之间有显著的重叠,并且在 ActivityNet 上也观察到同样的情况。

note

  • [25] 尝试解决两个文本很相似,但是目标却需要让它们分开的问题。

这篇文章就是有两个方面:

  • 将几个数据集合并,训练出了一个模型超过了所有单独数据集上 SOTA 模型。
  • 提出一种清洗数据集的方法,找到数据集训练和测试集的重合部分,将其从训练集中去除,防止过拟合。

1. Introduction

视频是一种非常流行的数据格式,每分钟500小时的视频被上传到你的管上。许多个人手机都有Gb节的视频。由于视频格式每年越来越流行,现代搜索方法的重要性也在增加。

在本工作中,我们提出了我们对文本到视频检索任务的研究。 在此任务系统中,应该为给定的文本查询返回来自图库的最相关视频段。 查询是对我们想在视频中找到的内容的文本描述。 查询可以描述对象、操作、声音、…和它们之间的关系

有两个主要的方向,它们允许计算文本搜索查询和视频段之间的相关性。第一个方向是单流接近[32],其中查询和视频一起给给一个网络,然后从处理开始开始融合。该方法的示意图如图所示.

image-20210326122537557

图1:两种类型的融合

这种类型的方法可以从处理开始就访问所有输入数据,并且可以对数据作出强有力的判断。 但是这些方法有一个显著的缺点,因为它是不可伸缩的:搜索系统的每个新查询都应该计算这个查询和画廊中每个视频段的全部前向传递。

另一个方向是两个流神经网络[24],[8],其中一个文本查询和一个视频由两个不同的神经网络处理。因此,网络在相同的嵌入空间中产生嵌入,在语义上接近的文本查询和视频段将被放置在旁边。示意图所示。1b.

而 two-stream 方法是可以伸缩的。

为了建立一个强大的视频检索解决方案,必须向模型展示现实生活中的许多场景、动作和对象。有很多视频数据集,但没有一个涵盖现实生活中的很大一部分。解决这个问题的第一步之一是制定将不同的现有数据集组合到单个大型训练数据库中的规则。

文本到视频检索是一个现代方向,其中最初的作品之一在2016年[33]发表。视频检索任务最普遍的解决方案之一是多模态 transformer [8]架构,它使用BERT[4]主干进行视频网络。它允许以一种自然的方式处理多模态数据源内的时间依赖关系。

最流行的文本到视频检索数据集是MSRVTT[39]、ActivityNet[17]和LSMDC[29]。 许多研究人员主要在这三个数据集上测试他们的解决方案。

我们的工作如下:

  • 我们在MSRVTT和LSMDC基准上提出了一个新的(sota)结果;
  • 提出了一个模型,在三个不同的基准上显示了良好的结果,而不需要 finetune:MSRVTT(SotA)、LSMDC(SotA)和ActivityNet;
  • 我们提出了一种实用的方法,以帮助我们找到训练和所使用的数据集的测试部分之间的重叠。

2. Related Work

2.1 Datasets

msrvtt

官方划分数据集:这种分割有两个重要的属性:1.没有从同一视频中裁剪的两个视频段,因为第一段放置在训练部分,第二段放置在测试部分;2.没有两个视频段,从同一查询中检索,因为第一段放置在训练部分,第二段放置在测试部分。

另外两个分裂称为1k-A (有时称为jsfusion)和1k-B(有时称为miech)。 他们都有不同的1k视频进行测试。 他们是通过随机抽样1k视频从原始测试部分(完全分裂)。 1k-A训练部分由原始训练分割和测试部分的其余视频组成,因此测试部分有1k视频,训练部分有9k视频。 1k-B有测试部分的1k视频和训练的6.5k视频。 此外,两个拆分每个段只使用一个标题(而不是20个标题)。

不幸的是,1k-A和1k-B混合了训练和测试部件。 这导致了完全分裂所满足的属性1.和2的违反。

另一个问题是,所有这些分裂都有测试和训练部分之间的重叠,详见C.2。 为了严格起见,我们删除了MSRVTT完全分裂的测试部分和训练部分之间的重叠。 我们称这个分裂的MSRVTT完全干净,并将其称为Mc。 值得一提的是,我们不修改测试部分,我们只从训练部分删除一些视频。

这个数据集的视频片段是从电影中剪辑出来的,其中使用电影文本化的转录作为字幕。电影转录是对视频片段的音频描述,通过描述发生了什么,谁出现在这个时间,现在的背景等等来帮助盲人看电影。

在这项测试工作中,我们使用了LSMDC

ActivityNet数据集[17]由2万k视频和10万字幕组成,其中字幕覆盖了大多数视频的完整视频长度,相邻的字幕可能相交。这些注释是用亚马逊机械土耳其人制作的。

某些视频片段可能重叠的情况会使文本到视频检索测试出现问题。假设我们有两个视频字幕对(S1、C1)和(S2、C2),其中视频段S1与视频段S2有非空的重叠。现在假设对于查询C1,系统返回视频段S2。它是否存在错误?在这种情况下该怎么办?

许多之前的工作使用 ActivityNet 测试数据集段落检索模式。在这个模式下所有的同一视频片段的 caption 都被连接,这样整个视频应该通过这个 query 连接起来。这种模式有两个缺点。 第一种是段落检索不是一种经典的视频检索模式,它是另一项任务。 人们可以问:如果一个模型在段落检索中是好的,它会对视频检索有好处吗? 第二个缺点是查询会很长,视频段会很长(与经典的视频检索模式相比)。 这个问题需要扩大模型的输入。

另一种使用ActivityNet测试部分的方法是从每个视频中抽取一个随机段。 因此,我们将有没有交叉的视频段和字幕与通常的长度。 我们以这种方式使用ActivityNet测试部分。 我们从val1和val2部分获取所有视频,并从每个视频中采样单个随机段。 ActivityNet 上的所有结果都在此拆分上报告。

我们还使用了其他的数据集: NIST TRECVID Twitter vines [1], TGIF [18], MSVD [2], YouCook2 [43], Something-something V2 [10], Kinetics 700 [31], HowTo100M [23].

2.2 Prior Art

对比学习是训练视频检索模型的主要方法。让相关的视频和文本距离 -> 0, 不相关的距离 -> + ∞ +\infty +. [13]

当训练数据噪声较大时,可应用MILNCE损失[22]。假设我们知道一个视频 i 应该接近于一个(或一些)文本之一, t e x t i 1 , … , t e x t i k text_{i1},\dots, text_{ik}

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值