《Self-supervised Video Representation Learning Using Inter-intra Contrastive Framework》论文阅读笔记
论文地址:https://arxiv.org/pdf/2008.02531.pdf
代码地址:https://github.com/BestJuly/IIC
目录
引言
intra-sample learning:约束为样本本身。
inter-sample learning:约束为相同样本间的特征接近,而不同样本特征间的距离较远。
文章提出了一种自我监督的方法来从视频中学习特征表示。传统的自我监督方法中的标准方法是使用正负数据对来训练对比学习策略。在这种情况下,同一视频的不同模态被视为正,而来自其他视频的视频片段将被视为负。由于时空信息对于视频表示很重要,因此我们通过引入负样本来扩展负样本,这些样本是通过破坏视频剪辑中的时间关系从同一锚视频转换而来的。借助提出的帧内对比度(IIC)框架,可以训练时空卷积网络来学习视频表示。IIC框架中有许多灵活的选项,作者通过使用几种不同的配置进行实验。使用学习到的视频表示对视频检索和视频识别任务进行评估。文章提出的IIC在很大程度上优于当前的最新结果,例如,用于视频检索的UCF101和HMDB51数据集的top-1准确性分别提高了16.7%和9.5%。对于视频识别,这两个基准数据集也可以得到改进。
一、文章解析
1.1 backbone
R3D, 每个残差块由两个3D卷积层组成。
1.2 inputs
2 views (THWC)
- 正样本:{xi1, xi2}
- 负样本:{xi1, xj2} (i!=j) +{xi1, xjneg} extend
{xi1, xjneg}:打破时间关系:
1.3 contrastive learning
3 memory banks用于存放view1,view2,neg初始数据特征,作为non-parametric softmax中的权重。
function hθ (·): p high, n low.
- train:从一系列数据中选出一个正样本;
- 获得vi1特征,从view2和neg组合特征数据集中选出一个正样本。
- loss function: optimization
1.4 joint representation
- only use one modal to process data from defferent views.
- option views: RGB片段,光流片段(u,v),堆叠帧差异(stacked frame differences)=>残差片段(residual clip)
- choose: RGB + residual frames/optical flow = RGB + res/u/v.
1.5 evaluation
video retrieval + video recognition.
二、实验结果
下游任务为视频动作识别的结果如图。
三、缺陷
仅使用一种模型处理输入数据时,该模型可能在区分与RGB视频片段具有相似分布的输入时进行了更多级联,从而导致微调在仅使用光流数据时初始化不正确。
四、Future work
- use multiple models for different views.
- 我正在follow这篇,但是复现效果不是很好。