FAIR最新无监督研究:视频的无监督时空表征学习

FAIR的Kaiming He团队在CVPR2021上发表了一项研究,将图像无监督学习方法应用于视频,通过对比学习方法MoCo, BYOL, SimCLR, SwAV进行大规模实验。他们发现,使用多个视频片段进行无监督学习能提升性能,且长时间间隔的正样本采样有利于学习空间时间持久性特征。在某些情况下,无监督预训练的性能甚至超过了有监督训练。" 50476572,2901685,自动化老化测试框架详解,"['自动化测试', '设备测试', 'Android测试', '硬件验证', '软件验证']
摘要由CSDN通过智能技术生成

近期,FAIR的Kaiming He组发布了关于视频的无监督学习研究:A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning,这篇论文被CVPR2021收录。论文的核心是将近期图像中的无监督学习方法应用在视频的无监督训练中。这个工作实验非常充分,也只有Facebook和Google 这样的大厂才有足够的资源来做这样的大规模实验。

论文中共选取了四种无监督学习方法:MoCo,BYOL,SimCLR,SwAV。其中MoCo和SimCLR是需要负样本的对比学习方法,而BYOL和SwAV是只依赖正样本的无监督学习方法。从另外一个角度看,MoCo和BYOL都采用了momentum encoder,而SimCLR和SwAV并没有。这里的四种方法有两类是Facebook提出的(MoCo和SwAV),另外的两类SimCLR和BYOL则是Google提出的 。

图片

这四种方法原本都是用于图像的无监督训练,视频相比图像只是多了一个时间维度,这些方法可以非常容易地扩展到视频的无监督学习中。无论是图像分类还是视频分类,无监督就是要学习到特征不变量。具体到图像上,上述方法其实都是要同一个图像做不同的augmentation送入一个encoder网络来学习到不变的特征。那么对于视频分类来说,除了图像本身的变换外,还增加了时序维度。论文的做法是从同一个视频中sample不同的视频片段clips来做无监督学习(这其实可看成video独有的augmentation),这其实是希望学习到temporally-per

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值