AAAI 2022 | 负样本问题：时间基础度量学习的复兴

最新推荐文章于 2022-12-23 12:28:20 发布

深兰深延AI

最新推荐文章于 2022-12-23 12:28:20 发布

阅读量2.2k

点赞数

分类专栏： AAAI 文章标签：计算机视觉深度学习机器学习视频处理

本文链接：https://blog.csdn.net/shenlanshenyanai/article/details/122092274

版权

本文介绍了在多模态视频片段定位任务中，如何通过改进的度量学习方法 Mutual Matching Network（MMN）提升定位效果。MMN 强调了负样本的重要性，特别是在跨模态对比学习中，通过构建新的监督信号，提高了文本和视频特征的可辨别性，减少了计算开销。该方法在多个数据集上取得SOTA结果，为度量学习在视频理解领域的应用提供了新思路。

摘要由CSDN通过智能技术生成

本文介绍我们组NJU-MCG 在多模态视频片段定位领域（Temporal Grounding和Spatio-temporal Grounding任务）被AAAI 2022接收的一篇工作 Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding。

TL;DR: 本方法（Mutual Matching Network, MMN）主要是从两个角度对现有方法进行改进：

第一个角度是使用跨模态对比学习增加文本和视频特征的可辨别性（more discriminative）从而提高最终的定位效果，具体做法是增加了一个使得两个模态双向匹配（mutual matching）的损失函数从而构造了许多新的监督信号。我们首次使用了此前方法忽视的文本负样本，并且首次揭示了跨视频负样本的重要性。我们对于负样本的探究对应了标题中的negative sample matters。
第二个角度是从度量学习的角度使用了一个多模态联合建模空间（joint visual-language embedding space）替换复杂的多模态融合模块，从而大幅降低了计算开销，并且使得前面提到的双向匹配loss成为可能。

虽然此前有过一个方法使用度量学习进行建模，但其方法效果较差因此后续没有人follow这个思路。本方法的标题使用了a renaissance of metric learning试图说明度量学习的角度其实依然是一个很好的建模思路，希望有更多的后续工作follow这个思路。

论文链接（camera ready version已经更新）：

https://arxiv.org/abs/2109.04872

代码链接（代码和网络权重已经开源）：

https://link.zhihu.com/?target=https%3A//github.com/MCG-NJU/MMN

任务介绍

简单介绍一下什么是视频片段语言定位（Temporal Grounding）任务：属于视频领域的多模态任务（视频+文本），是视频时序检测任务的多模态版本，也是跨模态视频检索的片段版本。以下列举了一些视频领域的相关任务。

动作识别 (Action Recognition) ：对每个输入视频进行分类，识别出视频中人物做出的动作。即输入一个视频，得到视频对应的类别。方法主要是Two-Stream和3D Conv两个流派，常常作为后续视频任务的特征提取器。此任务可以关注我们组近期的工作TDN。

时序动作检测 (Temporal Action Detection/Localization) ：输入一个未经裁剪的长视频 (untrimmed video)，即视频中既包括有动作的前景区间，也包括没有明确语义的背景区间。任务需要检测（或定位，此任务中这两个词等价）出动作开始和结束的区间，并判断区间内动作的类别。即输入未经裁剪的视频序列，得到动作出现的区间和对应的类别。常用数据集为THUMOS14与ActivityNet。此任务可以关注我们组近期工作RTD。

跨模态视频检索(Cross-modal Video Retrieval)：在一个给定的视频数据库中查询与一句话的语义最相关的那个视频。虽然与temporal grounding任务只相差一个片段定位过程，但是两个任务的方法上几乎没有相似性。这个领域使用度量学习角度的方法比较多，但是在temporal grounding领域几乎没有人follow。

视频片段语言定位 (Temporal Grounding) ：输入一个未经裁剪的长视频和一句话，任务要求检测与这句话语义一致的片段的区间。本任务有很多名字，例如temporal/video grounding, cross-modal moment retrieval, natural language moment retrieval, temporal localization via language query等，代表了不同的领域对于这个任务从不同角度的看法。本任务也没有一个固定的中文名字，我们给它起的暂定的名字是多模态视频时序检测，之后提到的时候主要还是使用英文名。

这个任务的产生主要可以有两个角度来看：

（1ÿ