【论文阅读】Uncovering Hidden Challenges in Query-Based Video Moment Retrieval

反科研pua所所长

已于 2022-06-06 15:44:07 修改

阅读量5.2k

点赞数 2

分类专栏：视频片段检索文章标签：计算机视觉深度学习人工智能

于 2022-03-14 15:41:44 首次发布

本文链接：https://blog.csdn.net/YasmineC/article/details/123406688

版权

视频片段检索专栏收录该内容

12 篇文章

订阅专栏

又是一篇关于vmr中bias的文章，希望能找到想要的东西

本次阅读目标

（或许找得到，也或许找不到）：

找到对vmr中所有bias的总结
找到衡量这些bias的指标

摘要和引入

摘要：作者展示了一些实验，来评估数据集上的结果是如何反映解决片段检索任务时的真正进步的，结果展示了当前流行数据集的大量偏置和最先进方法的意想不到的行为；然后作者提出了新的完整性实验和可视化结果的方法

感觉这篇文章找不到我想要的答案了…

引入，这篇文章有三个发现：1）查询语句为vmr任务提供了一个强先验，基于这点，作者提出了一个不使用任何视觉内容的基线模型（查询语句提供的强先验，为什么要不使用视觉内容的模型来验证）2）当前最先进模型并不必要利用（或几乎不利用）视觉输入，特别地，在ActivityNet上的模型不学习跨模态匹配，只是利用数据集偏置（感觉说得有点太绝对，也不能说完全没学吧）3）人类在这些任务上的表现比最先进模型要差，且不同标注者间存在大量的分歧，可能表示数据集中提出的视觉任务是非常模糊的（虽然会对开始点和结束点有一些分歧，但是这应该可以算是在误差范围内，不然也没办法避免啊，毕竟这已经是人类的标注了，算是模型能够作为参考的最佳目标了）

感觉虽然可能找不到自己的答案了，但他提供了不少代码，之后做数据集的分析时应该能用上

联邦学习中的偏置，是相对于数据集的，还是相对于整个现实世界样本集的？

先验的类别

bias：动作（句子中的动词）
偏置表现：动词出现的频率不同
阻碍学习能力的表现：结合时序标注的偏置，模型会（图2图3结合看）看到某个单词出现，就预测其最常出现的位置

在这里插入图片描述

bias：时序标注的位置
偏置表现：标注并非均匀分布或符合正态分布
阻碍学习能力的表现：模型倾向于向密度大的时序标注预测

在这里插入图片描述

正面验证先验的实验

只考虑时序位置的实验：从先验分布中取样100个时序位置，然后基于可能性对这些先验排序，最后选择排序第一的样本（写得不是很清楚，猜想是每给出一个测试查询，就做一次取样和排序，选择最高排名的）
考虑动作对应时序分布的实验：给出一个测试查询，选出句子中的第一个动词，如果这个动词是排名前50的高频动词，则从提前计算好的这50个动词对应的时序位置分布中，进行取样+排序+选第一操作；若是50开外的单词，直接从总体的时序位置分布中进行取样+排序+选第一操作
不看视频的2D-TAN模型：2D-TAN对视频的处理是，放入预训练的VGG+构建2D时序特征map，作者直接将这部分替换为一个可学习的map（维度至少为 $16 * 16 * 500$ ），与查询语句做匹配

实验结果如下
在这里插入图片描述
关于这张图，我主要的疑问在于，Blind-TAN和2D-TAN之间，因为深入研究过2D-TAN这篇文章，知道这篇文章的主要论点就是能通过二维时序特征图来构建不同片段之间的时序依赖关系，如果说完全不考虑视觉输入的话，还能达到这样的效果，说明之前时序特征图所获得的improvement不止来源于对时序关系的构建，可能Blind-TAN到2D-TAN之间的那部分，其中才可能包括对时序依赖关系的构建所带来的性能提升；但同时，不考虑视觉输入的情况下，能达到的效果比很多方法也要高，说明这个结构本身也是存在优势的，但这部分优势到底是什么呢？为什么这样的结构在不考虑输入的情况下也能帮助提升性能呢？说明这个二维结构可以把文本特征展示出来（大概是不可解释的吧）

反面验证先验的实验

（正面验证视觉输入的实验）

实验设置：切分视频->重排序->使用模型重新预测
实验猜想：如果模型对打乱顺序的视频仍然做出跟之前一样的预测（简单等同于获得与未打乱前相当的性能），说明模型只是学习了先验；若做出的预测与之前有很大不同（简单等同于性能大幅下降），则证明视频对模型的预测有很大贡献

实验结果如下
在这里插入图片描述
说明SCDM模型在Charades-STA数据集上对视觉输入获得了较强的学习能力

注：这里还有一个Figure 6的实验，但我认为得出的结论比较草率，不严谨，所以不记录

人类表现

结论：作者做了比较可靠的实验，让人类对查询进行预测。结果是获得了与state-of-the-art相当的结果，作者认为是，人类无法获得模型学习到的先验，但是可以通过对视觉信息的理解来弥补，最终导致它们获得了相当的性能

可选的评价指标

看不懂呵呵，不看了

评价

作者英文写作水平可能是真不咋样，描述实验设置和自己的一些推断时，写的文字非常让人摸不着头脑（比如其中提到一个reference moment，我看半天也不知道指的是什么）。有时候好不容易看懂了，才发现说的原来是这么简单一件事，可以说是非常难受了。但是我认为这篇文章的贡献还是很值得认可，毕竟是第一篇（后面的A closer look at和deconfounded两篇文章中的很多观点都跟这篇有重合），而且他做的实验，整体来说还是比较严谨的。