计算机视觉中的自监督表示学习近期进展

最新推荐文章于 2024-07-02 14:30:52 发布

PaperWeekly

最新推荐文章于 2024-07-02 14:30:52 发布

阅读量2.1k

点赞数 9

文章标签：计算机视觉机器学习人工智能深度学习神经网络

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/108934590

版权

本文介绍了自监督表示学习在计算机视觉中的应用，包括对比学习方法，如MoCo v1/v2, SimCLR v1/v2和BYOL。这些方法通过最大化相似性并最小化差异性来学习表示，解决了深度学习中大量标注数据的需求问题。对比学习的核心是对比损失函数，例如InfoNCE，以及不同的架构，如端到端反向传播、记忆银行和动量对比。这些进展为无监督预训练提供了强大工具，可用于下游任务的高性能表现。" 101048673,8396981,Flutter：后台高效处理JSON数据解析,"['Flutter开发', '多线程', '网络请求', '数据解析', '性能优化']

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者｜燕皖

单位｜渊亭科技

研究方向｜计算机视觉、CNN

回顾过去一年左右的自监督学习领域的最重要发展，那么会发现很多优秀的作品：MoCo v1 和 v2，SimCLR v1 和 v2，BYOL。本文先对自监督表示学习进行一般性介绍，随后重点介绍这几种自监督学习方法。

Representation Learning

▲ Representations: The input image (224 x 224 x 3) is passed through a feature extractor (typically a trained CNN network) that non-linearly transforms the spatial features of the image to a vector space of dimension 512.

计算机视觉中的表征学习是从原始数据中提取特征。特征提取涉及将原始数据处理到向量空间中，捕获表示该数据的基础时空信息。

在计算机视觉中，表征学习算法可分为两类：

监督学习（Supervised learning）：利用大量的标注数据来训练神经网络模型，完成模型训练之后，不直接使用分类的 fc 层的输出，而是其前一层的输出作为 Representation 用于下游任务。
自监督学习（Self-Supervised Learning）：利用大规模的无标注的数据，选择合适的辅助任务（pretext）和自身的监督信号，进行训练，从而可以学习到 Representation 用于下游任务。