iclr 2024 oral reviewer评分 68888
- 自监督学习解锁了将预训练扩展到数十亿图像的潜力,因为不需要标注。但是,我们是否充分利用了数据?我们能更经济地使用数据吗?
- 在这项工作中,论文尝试通过两个贡献来回答这个问题。
- 首先,论文研究第一人称视频并引入了一个“步行游”数据集。
- 这些视频具有高分辨率,长时间拍摄,一镜到底,展示了大量的物体和动作以及自然的场景转换。
- 它们未经标注和未经策划,因此对自监督来说是现实的,并且与人类学习相当。
- 首先,论文研究第一人称视频并引入了一个“步行游”数据集。
-
- 其次,论文引入了一种新颖的自监督图像预训练方法,专为从连续视频中学习而设计。
- 现有方法通常将基于图像的预训练方法调整为包括更多帧。
- 相反,论文提出一种“追踪以学习识别”的方法,DORA,通过使用Transformer交叉注意力,以端到端的方式导出注意力图,发现并跟踪随时间变化的物体。
- 从轨迹中派生出多个视图,并在经典的自监督蒸馏损失中使用它们。
- 其次,论文引入了一种新颖的自监督图像预训练方法,专为从连续视频中学习而设计。
-
使用论文的新方法,单个“步行游”视频显著地成为ImageNet在几个图像和视频下游任务中的强有力的竞争者。
-
数据集和代码可以在 https://shashankvkt.github.io/dora 找到。