《Self-supervised Video Representation Learning Using Inter-intra Contrastive Framework》论文阅读笔记

《Self-supervised Video Representation Learning Using Inter-intra Contrastive Framework》论文阅读笔记

论文地址:https://arxiv.org/pdf/2008.02531.pdf
代码地址:https://github.com/BestJuly/IIC

引言

intra-sample learning:约束为样本本身。
inter-sample learning:约束为相同样本间的特征接近,而不同样本特征间的距离较远。

文章提出了一种自我监督的方法来从视频中学习特征表示。传统的自我监督方法中的标准方法是使用正负数据对来训练对比学习策略。在这种情况下,同一视频的不同模态被视为正,而来自其他视频的视频片段将被视为负。由于时空信息对于视频表示很重要,因此我们通过引入负样本来扩展负样本,这些样本是通过破坏视频剪辑中的时间关系从同一锚视频转换而来的。借助提出的帧内对比度(IIC)框架,可以训练时空卷积网络来学习视频表示。IIC框架中有许多灵活的选项,作者通过使用几种不同的配置进行实验。使用学习到的视频表示对视频检索和视频识别任务进行评估。文章提出的IIC在很大程度上优于当前的最新结果,例如,用于视频检索的UCF101和HMDB51数据集的top-1准确性分别提高了16.7%和9.5%。对于视频识别,这两个基准数据集也可以得到改进。

一、文章解析

在这里插入图片描述

1.1 backbone

R3D, 每个残差块由两个3D卷积层组成。

1.2 inputs

2 views (THWC)

  • 正样本:{xi1, xi2}
  • 负样本:{xi1, xj2} (i!=j) +{xi1, xjneg} extend
    {xi1, xjneg}:打破时间关系:
    在这里插入图片描述

1.3 contrastive learning

3 memory banks用于存放view1,view2,neg初始数据特征,作为non-parametric softmax中的权重。
function hθ (·): p high, n low.

  • train:从一系列数据中选出一个正样本;
  • 获得vi1特征,从view2和neg组合特征数据集中选出一个正样本。
  • loss function: optimization

1.4 joint representation

  • only use one modal to process data from defferent views.
  • option views: RGB片段,光流片段(u,v),堆叠帧差异(stacked frame differences)=>残差片段(residual clip)
  • choose: RGB + residual frames/optical flow = RGB + res/u/v.

1.5 evaluation

video retrieval + video recognition.

二、实验结果

动作识别
下游任务为视频动作识别的结果如图。

三、缺陷

仅使用一种模型处理输入数据时,该模型可能在区分与RGB视频片段具有相似分布的输入时进行了更多级联,从而导致微调在仅使用光流数据时初始化不正确。

四、Future work

  • use multiple models for different views.
  • 我正在follow这篇,但是复现效果不是很好。
对比式自监督学习是一种无监督学习的方法,旨在通过通过训练模型来学习数据的表示。这种方法在计算机视觉领域中得到了广泛的应用。 对比式自监督学习的核心思想是通过将数据例子与其在时间或空间上的某种变形或扭曲版本对比,来训练模型。这种对比鼓励模型捕捉到数据的关键特征,从而学习到更好的表示。 对比式自监督学习的一个常见应用是图像的自学习。通过将图像进行旋转、剪切、缩放等变形,来构建一个正样本(原始图像)和负样本(变形图像)对。然后将这些对输入到一个深度神经网络中进行训练,以学习图像表示。训练过程中,网络被要求将正样本和负样本区分开,从而学习到图像的特征。 对比式自监督学习有许多优点。首先,它不需要标注数据,使其适用于大规模的无标签数据。其次,由于数据自动生成,可以轻松地扩展到大数据集。另外,对比式自监督学习的模型可以用于其他任务的迁移学习,使得模型更通用。 然而,对比式自监督学习也存在一些挑战和限制。首先,生成变形样本的过程可能会降低数据的质量,从而降低学习效果。其次,选择合适的变形方式和参数也是一个挑战。另外,对于某些领域和任务,对比式自监督学习可能不适用或效果不佳。 总之,对比式自监督学习是一种有效的无监督学习方法,可用于数据表示学习。它在计算机视觉领域有着广泛的应用,并具有许多优点。然而,仍然需要进一步的研究和发展来克服其中的挑战和限制。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值