【牛津大学博士论文】自监督学习视频理解

21649060d01bb66bcd9e6bc0f0b83719.png

来源:专知
本文为论文介绍,建议阅读5分钟机器只知道某些物体的名称和位置是不够的,许多任务需要对复杂的物理世界有更深入的了解。

083bca917695cdcf828ffd71d1b38c9c.png

深度学习的出现为许多基本的计算机视觉任务带来了巨大的进展,如分类、检测和分割,这些任务描述了图像和视频中物体的类别和位置。在监督学习方面也做了很多工作--教机器使用人类注释的标签来解决这些任务。然而,机器只知道某些物体的名称和位置是不够的;许多任务需要对复杂的物理世界有更深入的了解--例如,物体与周围环境的互动(通常通过创造阴影、反射、表面变形和其他视觉效果)。此外,在严重依赖人类监督的情况下,训练模型来解决这些任务,成本很高,而且不切实际,难以推广。因此,本论文探索了两个方向:首先,我们的目标是超越分割,解决一个全新的任务:将物体与其相关的视觉效果(如阴影、反射或附着的物体)分组;其次,我们以自我监督的方式解决视频物体分割的基本任务,而不依赖任何人类注释。

https://ora.ox.ac.uk/objects/uuid:6c722b16-1a13-4ae1-aebb-fb7026820a64

为了将物体与其相关的视觉效果自动分组,我们采用了一种分层的方法:我们的目标是将视频分解成特定的物体层,其中包含所有与物体一起移动的元素。这些层的一个应用是,它们可以以新的方式重新组合,以产生一个高度真实的、经过改变的原始视频版本(例如,删除或复制物体,或改变其运动的时间)。这里的关键是利用卷积神经网络的自然属性来获得输入视频的分层分解。我们设计了一个神经网络,通过对视频的过度拟合,为视频输出层。我们首先介绍了一种针对人类的方法,然后展示了如何将其适应于任意的物体类别,如动物或汽车。

我们的第二个任务是视频物体分割:为视频中的物体产生像素级的标签(段)。我们以前的工作是在单个视频上进行优化,而在这里,我们采取了一种数据驱动的方法,以自我监督的方式对大量的视频语料库进行训练。我们考虑了两种不同的任务设置:(1)半监督物体分割,即为单一帧提供初始物体掩码,该方法必须将该掩码传播到其余帧;(2)移动物体发现,即不提供掩码,该方法必须分割突出的移动物体。我们探讨了两种不同的输入流。RGB和光流,并讨论它们与人类视觉系统的联系。

36239f9bc5e422979868cd709a62da4e.png

7c7f0ca43e6d99a5f206e9a4637d6c6c.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值