《Knowledge Transfer from Multiple Self-supervised Learning Tasks via Graph Distillation 对于视频分类》论文笔记

最新推荐文章于 2024-03-16 16:37:08 发布

klrp95

最新推荐文章于 2024-03-16 16:37:08 发布

阅读量558

点赞数

分类专栏：论文调研文章标签： knowledge transfer video representation

本文链接：https://blog.csdn.net/klrp95/article/details/88673778

版权

本文探讨如何通过图蒸馏框架解决自监督学习在视频分类中的局限，提出logits图和表示图进行知识迁移，利用多任务教师模型的知识指导轻量级学生模型的学习，提升视频表示的鲁棒性和效率。

摘要由CSDN通过智能技术生成

北京大学

视频表示学习是提出有区别性的（discriminative）特征，是视频分类的一个重要问题。

自监督学习提取了raw visual数据的结构信息作为监督信息，从而在不实用人工标注的情况下得到transferable representation。具体来说，是机器通过使用self-supervision 而不是labels 解决了一个auxiliary task，这个过程可以得到有用的表示。这个方法的原理是：需要数据的高级语义理解，这forces 自监督模型学习有用的表示。

自监督学习是一种信息密集型的自学习media，其本质上提供了丰富的上下文监督线索，因此在视频处理领域具有很大的潜力。

自监督学习通过解决辅助任务，探索海量数据中隐含的用于特征学习的内在监督信号。但当把这个技术用于视频分类中时，会出现两种局限性：1.只关注单个任务，忽略不同任务task-specific features的互补性。在经验上，在解决不同视频任务时需要不同的特征，这些特征可以相互补充，形成对视频语义的全面理解。2.计算和内存消耗大，不利于应用（使用更深更宽的模型进行表示编码）

自监督学习的重要贡献：回答了怎样有效地评估没有使用人工标注数据进行训练的模型的表现。通常在这个领域设计的任务不是直接针对问题的，这些“auxiliary”任务很难保证模型可以学习高级的表示。

过去在单个图像领域的auxiliary tasks包括使用网络来补绘确实大部分区域的图像（Deepak Pathak, Philipp Krahenbuhl, Jeff Donahue, Trevor Darrell, and Alexei A Efros. Con- text encoders: Feature learning by inpainting. In CVPR, pages 2536–2544, 2016.），为灰度图填色（Richard Zhang, Phillip Isola, and Alexei A Efros. Colorful image colorization. In ECCV, 2016.），拼图任务（Carl Doersch, Abhinav Gupta, and Alexei A Efros. Unsupervis