VMR-21论文总结

2021-ACL-MTVR: Multilingual Moment Retrieval in Videos

这篇文章在TVR数据集的基础上扩展了mTVR数据集,增加了中文的query和subtitle标注;也在XML模型的基础上扩展了mXML模型,使用了参数共享和领域限制方式,让两种语言共同学习、共同获益。

一次定位中的基于概率的方法

暂时不太明白邻域限制的含义。

2021-CVPR-Interventional Video Grounding with Dual Contrastive Learning

这篇文章的动机在于,查询语句和视频之间由于数据集的选择偏好而出现的虚假因果关系(如出现相同单词的不同查询语句,可能表示的是完全不同的含义)。于是作者提出使用后门调整的介入视频定位(IVG)模块来更好地挖掘真实的因果关系,以及使用双对比学习(DCL)模块来更好地表示视频和查询语句的特征。

一次定位中基于回归的方法

其中,因果关系是如何发掘的,不是特别懂。

btw,21年好像在新加坡发起了一股因果学习的风潮。

2021-CVPR-Multi-Modal Relational Graph for Cross-Modal Video Moment Retrieval

这篇文章应用了预分割视频片段的思路,为视频的片段和查询语句分别构建了关系图,利用多任务的预训练来增强关系图的表示,最后用图匹配和边界回归两个优化目标完成检索任务。

预设候选片段中的CTRL思路,改进了处理对象的实体

文章的优势很明显,大多数论文的思路是直接对视频片段和查询语句进行匹配,而这篇文章直接利用他们构建出的关系图来进行匹配。

2021-ICCV-Fast Video Moment Retrieval

动机是作者认为跨模态检索模块太浪费时间,于是提出将这个模块替换为公共子空间,然后在映射到公共子空间的跨模态表示直接做点乘,获得排序结果。而在训练阶段,则增加了细粒度语义蒸馏模块,来优化视频编码器和文本编码器。

预设候选片段的CTRL思路,改进了跨模态交互部分

细粒度语义蒸馏模块的细节不是太懂。

2021-HUMA-A Closer Look at Temporal Sentence Grounding in Videos: Dataset and Metric

作者认为VMR任务原本的数据集和评价指标对于模型的训练和评估是有问题的,主要表现为数据集本身存在一些标记偏置(annotation bias), 因此作者重新切分了数据集、改进了评价指标,并在新的数据集和评价指标上实施了领域内较为popular的八个方法。(但我认为,原本数据集的标注偏置仍然没有解决,因为这是数据集收集阶段的问题,但作者既然花了大篇幅提了(文中第三部分),就应该着手解决。

2021-MM-CONQUER: Contextual Query-aware Ranking for Video Corpus Moment Retrieval

这篇的大体框架依照XML,不同的是这篇将查询语句对视频内容(视觉信息+字幕)的参与细化成了两个步骤,第一是先让查询语句参与构成视频的联合表示,第二是使用双向注意力来获得视频和查询的共同表示。

一次定位中的基于概率的方法

有个小问题,双向注意力和共同注意力有啥区别?感觉一样。

2021-SIGIR-Cross Interaction Network for Natural Language Guided Video Moment Retrieval

这篇文章以早期融合的方式,探索了视频和查询语句间双向的润色。并提出了起止节点预测和片段切分两个目标,优化模型的训练过程。并能使模型在非常短的时间内完成训练和预测。

一次定位中的基于概率的方法

2021-SIGIR-Video Corpus Moment Retrieval with Contrastive Learning

沿用XML的模型。应用了对比学习完成视频语料库片段检索的任务。将对比学习分别应用于视频检索和片段定位两个过程,来润色视频中多模态信息和查询语句文本信息的特征表示。

一次定位中的基于概率的方法

需要补充的知识:互信息及frame-level对比学习的部分

2021-TMM-Regularized

这里补一个vmr中常用损失函数的总结:对于排序思路的文章,可以应用对齐损失、定位回归损失、交叉熵损失

对齐损失

在这里插入图片描述
公式中, l o g ( 1 + e − x log(1+e^{-x} log(1+ex l o g ( 1 + e x ) log(1+e^{x}) log(1+ex)的图像分别是:
在这里插入图片描述
在这里插入图片描述
可以看到,该损失函数期望正对的分数能够远远大于零,负对的分数能够远远小于零。

定位回归损失

在这里插入图片描述

交叉熵损失

在这里插入图片描述
此交叉熵损失,本质上与对齐损失追求的目标一样,也是要正对能够获得更大的分数、负对能够获得更小的分数。区别在于,这里的正对负对并不是非黑即白(0或1)的概念,而是利用IoU的值计算得到的(0~1之间的任何值),因此学习到的分数也会更加细致。

对于一次定位的文章,基于概率的方法常用概率损失函数(我自己编的名字,貌似没有学名),基于定位的方法常用回归损失函数(同上面的定位回归损失函数)

概率损失函数

ground truth起止点的概率越大,损失越小
在这里插入图片描述
一个问题:多分类下的交叉熵损失?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值