论文略读:Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video

iclr 2024 oral reviewer评分 68888

  • 自监督学习解锁了将预训练扩展到数十亿图像的潜力,因为不需要标注。但是,我们是否充分利用了数据?我们能更经济地使用数据吗?
  • 在这项工作中,论文尝试通过两个贡献来回答这个问题。
    • 首先,论文研究第一人称视频并引入了一个“步行游”数据集。
      • 这些视频具有高分辨率,长时间拍摄,一镜到底,展示了大量的物体和动作以及自然的场景转换。
      • 它们未经标注和未经策划,因此对自监督来说是现实的,并且与人类学习相当。

    • 其次,论文引入了一种新颖的自监督图像预训练方法,专为从连续视频中学习而设计。
      • 现有方法通常将基于图像的预训练方法调整为包括更多帧。
      • 相反,论文提出一种“追踪以学习识别”的方法,DORA,通过使用Transformer交叉注意力,以端到端的方式导出注意力图,发现并跟踪随时间变化的物体。
      • 从轨迹中派生出多个视图,并在经典的自监督蒸馏损失中使用它们。

  • 使用论文的新方法,单个“步行游”视频显著地成为ImageNet在几个图像和视频下游任务中的强有力的竞争者。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值