论文阅读：Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

二苏旧局吖

已于 2022-02-12 13:59:36 修改

阅读量2k

点赞数

分类专栏：笔记文章标签：计算机视觉人工智能机器学习

于 2022-02-12 12:27:56 首次发布

本文链接：https://blog.csdn.net/qq_37246721/article/details/122890090

版权

笔记专栏收录该内容

13 篇文章 1 订阅

订阅专栏

题目：Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting
作者：Martine Toering

一、研究背景

传统的自监督对比学习不适用于视频：
实例级的对比学习取得了很大进展，但是由于操作是用于经过增强的实例集上的，所以并不适用于探索视频的丰富动态结构。视频本身提供的数据增强，如：视角变化，光线，形变，运动等，却没有被充分利用。
传统对比学习忽视了实例间的语义相似性：
在负样本对之间优化得到低相似性分数却不考虑二者的语义相似性，会使样本嵌入产生不理想的距离。
实例级对比学习低效
运动富含信息却和其他信息流相互作用

二、研究目标
找到一种适合视频的自监督表示学习方法：“Video Cross-Stream Prototypical Contrasting”
避免特征级别的对比，减少距离度量的开销：对实例和原型进行对比
有效利用运动信息：用原型映射和交替训练将知识从运动（流）转移到RGB
请添加图片描述

三、研究内容
因此，本文提出了可以作用在采样集上的“Video Cross-Stream Prototypical Contrasting”（视频跨流原型对比），它可以在RGB和光流这两种不同的视角（view）下预测出一致的原型分配（assignment）。
同时，本文采用交替优化策略；在优化任一支流时，所有的视角（view）都会映射在同一个流原型向量（stream prototype vectors）集上。并且，用所有与预测不匹配的视角（view）预测原型分配（assignment）。
本文提出的方法习得了更有效的视频嵌入和运动信息。
在这里插入图片描述

Contrastive instance learning：

data augmentation module
embedding function
contrastive loss function

Predicting stream prototype assignments
优化Z和C，最大化同一采样在不同视图下，原型分配的一致性，通过比较原型分配（Q*、Q）来间接地对比特征：
优化
通过最大化Q和C之间的相似性来计算Q，并在一个batch内部去优化；并用Tr（迹）来代表QQ后的矩阵，来衡量相似性：

通过约束Q的维度，进而在（4）中影响Cs维度，确保每个原型在一个batch内最少被选择B/K次：

求得Q，并让Q*接近Q，以此优化C（原型向量）、Z（编码器）：
Learning cross-stream

四、创新点

用两条支流进行流原型间的实例对比学习，避免了不必要的计算开销。
RGB和光流用两种方式进行相互联系：共同预测原型，交替优化
用不同模态作为输入视角，通过原型习得正负样本，避免使用大batchsize或存储器
提高不同视角下的一致性，比较聚类分配而不是单独的特征

五、实验结果
在这里插入图片描述

二苏旧局吖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文阅读：Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

题目：Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting作者：Martine Toering一、研究背景传统的自监督对比学习不适用于视频：实例级的对比学习取得了很大进展，但是由于操作是用于经过增强的实例集上的，所以并不适用于探索视频的丰富动态结构。视频本身提供的数据增强，如：视角变化，光线，形变，运动等，却没有被充分利用。传统对比学习忽视了实例间的语义相似性：在负样本对
复制链接

扫一扫