VMR-21论文总结

反科研pua所所长

已于 2022-04-06 21:51:57 修改

阅读量479

点赞数

分类专栏：视频片段检索文章标签：机器学习深度学习人工智能

于 2022-02-27 22:01:17 首次发布

本文链接：https://blog.csdn.net/YasmineC/article/details/123060916

版权

视频片段检索专栏收录该内容

12 篇文章 3 订阅

订阅专栏

2021-ACL-MTVR: Multilingual Moment Retrieval in Videos

这篇文章在TVR数据集的基础上扩展了mTVR数据集，增加了中文的query和subtitle标注；也在XML模型的基础上扩展了mXML模型，使用了参数共享和领域限制方式，让两种语言共同学习、共同获益。

一次定位中的基于概率的方法

暂时不太明白邻域限制的含义。

2021-CVPR-Interventional Video Grounding with Dual Contrastive Learning

这篇文章的动机在于，查询语句和视频之间由于数据集的选择偏好而出现的虚假因果关系（如出现相同单词的不同查询语句，可能表示的是完全不同的含义）。于是作者提出使用后门调整的介入视频定位(IVG)模块来更好地挖掘真实的因果关系，以及使用双对比学习(DCL)模块来更好地表示视频和查询语句的特征。

一次定位中基于回归的方法

其中，因果关系是如何发掘的，不是特别懂。

btw，21年好像在新加坡发起了一股因果学习的风潮。

2021-CVPR-Multi-Modal Relational Graph for Cross-Modal Video Moment Retrieval

这篇文章应用了预分割视频片段的思路，为视频的片段和查询语句分别构建了关系图，利用多任务的预训练来增强关系图的表示，最后用图匹配和边界回归两个优化目标完成检索任务。

预设候选片段中的CTRL思路，改进了处理对象的实体

文章的优势很明显，大多数论文的思路是直接对视频片段和查询语句进行匹配，而这篇文章直接利用他们构建出的关系图来进行匹配。

2021-ICCV-Fast Video Moment Retrieval

动机是作者认为跨模态检索模块太浪费时间，于是提出将这个模块替换为公共子空间，然后在映射到公共子空间的跨模态表示直接做点乘，获得排序结果。而在训练阶段，则增加了细粒度语义蒸馏模块，来优化视频编码器和文本编码器。

预设候选片段的CTRL思路，改进了跨模态交互部分

细粒度语义蒸馏模块的细节不是太懂。

2021-HUMA-A Closer Look at Temporal Sentence Grounding in Videos: Dataset and Metric

作者认为VMR任务原本的数据集和评价指标对于模型的训练和评估是有问题的，主要表现为数据集本身存在一些标记偏置(annotation bias), 因此作者重新切分了数据集、改进了评价指标，并在新的数据集和评价指标上实施了领域内较为popular的八个方法。（但我认为，原本数据集的标注偏置仍然没有解决，因为这是数据集收集阶段的问题，但作者既然花了大篇幅提了（文中第三部分），就应该着手解决。

2021-MM-CONQUER: Contextual Query-aware Ranking for Video Corpus Moment Retrieval

这篇的大体框架依照XML，不同的是这篇将查询语句对视频内容（视觉信息+字幕）的参与细化成了两个步骤，第一是先让查询语句参与构成视频的联合表示，第二是使用双向注意力来获得视频和查询的共同表示。

一次定位中的基于概率的方法

有个小问题，双向注意力和共同注意力有啥区别？感觉一样。

2021-SIGIR-Cross Interaction Network for Natural Language Guided Video Moment Retrieval

这篇文章以早期融合的方式，探索了视频和查询语句间双向的润色。并提出了起止节点预测和片段切分两个目标，优化模型的训练过程。并能使模型在非常短的时间内完成训练和预测。

一次定位中的基于概率的方法

2021-SIGIR-Video Corpus Moment Retrieval with Contrastive Learning

沿用XML的模型。应用了对比学习完成视频语料库片段检索的任务。将对比学习分别应用于视频检索和片段定位两个过程，来润色视频中多模态信息和查询语句文本信息的特征表示。

一次定位中的基于概率的方法

需要补充的知识：互信息及frame-level对比学习的部分

2021-TMM-Regularized

这里补一个vmr中常用损失函数的总结：对于排序思路的文章，可以应用对齐损失、定位回归损失、交叉熵损失

对齐损失

在这里插入图片描述
公式中， $log(1+e^{-x}$ 及 $log(1+e^{x})$ 的图像分别是：

可以看到，该损失函数期望正对的分数能够远远大于零，负对的分数能够远远小于零。

定位回归损失

在这里插入图片描述

交叉熵损失

在这里插入图片描述
此交叉熵损失，本质上与对齐损失追求的目标一样，也是要正对能够获得更大的分数、负对能够获得更小的分数。区别在于，这里的正对负对并不是非黑即白（0或1）的概念，而是利用IoU的值计算得到的（0~1之间的任何值），因此学习到的分数也会更加细致。

对于一次定位的文章，基于概率的方法常用概率损失函数（我自己编的名字，貌似没有学名），基于定位的方法常用回归损失函数（同上面的定位回归损失函数）

概率损失函数

ground truth起止点的概率越大，损失越小
在这里插入图片描述
一个问题：多分类下的交叉熵损失？

反科研pua所所长

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
VMR-21论文总结

2021-ACL-MTVR: Multilingual Moment Retrieval in Videos这篇文章在TVR数据集的基础上扩展了mTVR数据集，增加了中文的query和subtitle标注；也在XML模型的基础上扩展了mXML模型，使用了参数共享和领域限制方式，让两种语言共同学习、共同获益。一次定位中的基于概率的方法暂时不太明白邻域限制的含义。2021-CVPR-Interventional Video Grounding with Dual Contrastive Learni
复制链接

扫一扫

专栏目录