Cross Modal Distillation for Supervision Transfer

最新推荐文章于 2024-10-12 19:38:48 发布

弓如霹雳弦惊

最新推荐文章于 2024-10-12 19:38:48 发布

阅读量3.1k

点赞数 3

分类专栏：深度学习文章标签：图片迁移

本文链接：https://blog.csdn.net/Dilusense/article/details/55657222

版权

该文提出了一种名为'监督转移'的方法，将标注模态（如RGB图像）的特征用作无标注模态（如深度和光流图像）的监督信号，以进行特征学习。通过在未标注模态上匹配标注模态的中间层特征，实现跨模态的监督迁移，从而在无标注数据上获得更好的特征表示。实验结果显示，这种方法显著提高了在单模态数据上的性能，特别是在深度图像上的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

本文关注点是对图片的不同模态，做监督迁移学习。两种不同的模态，一种有大量的标注样本，一种没有。将从标注过样本的模态中学习得到的特征作为监督信号，用于无标注样本模态的特征学习。此方案能够对无标注信息的模态学习到很好的特征，也可以用于只含有少量标注样本的新模态的预训练。文章做了RGB图片（labeled）到depth（unlabeled）和optical flow（unlabeled）图片的监督迁移，实验的结果证实跨模态的监督迁移能带来大幅度的性能提升。

introduction

当前，计算机视觉方面的基本模式是从一个包含有大量标注样本的数据集中学习到generic feature，针对不同的任务再进一步微调。此模式几乎囊括了所有的state-of-art system：如object detection，semantic segmentation， object segmentation和pose estimation。所有上述任务的generic feature的学习均依赖于有大量标注图片的数据集。为此，本文就产生了如下疑问：对于无标注数据的模态中的图片，这一基本模式的相似性是什么？对于这些模态，是否我们也需要相似规模的标注数据来学习generic feature。
为此本文提出了一种迁移方案，将一个模态（labeled）中学习到的特征迁移到另外一个模态（unlabeled）中。此方案需要利用到两个模态中的paired image以及利用从labeled模态中学习到的mid-level特征来监督unlabeled模态的特征学习。文中称此方案为“supervision transfer”。下图即为方案的图示：