无监督
文章平均质量分 93
00000cj
计算机视觉,论文阅读记录
展开
-
MAE(CVPR 2022,Meta)论文与代码解析
深度学习在计算机视觉领域取得了显著进展,但随着模型规模的增长,对数据的需求也在增加。在自然语言处理(NLP)领域,通过自监督预训练的方法(如BERT和GPT)成功解决了数据需求问题,这些方法通过预测数据中被遮蔽的部分来训练模型。然而,在计算机视觉领域,尽管存在相关研究,自监督学习方法的发展仍然滞后于NLP。原创 2024-06-20 11:59:01 · 2343 阅读 · 1 评论 -
MoCo v3(ICCV 2021)
它们由两个编码器 \(f_k\) 和 \(f_k\) 进行编码,得到输出向量 \(q\) 和 \(k\),直觉上,\(q\) 的行为就像是一个“query”,而学习的目标是检索相应的“key”。这里 \(k^+\) 是 \(f_k\) 对 \(q\) 同一张图片的输出,作为 \(q\) 的正样本,集和 \(\{k^-\}\) 由 \(f_k\) 对其它图片的输出组成,作为 \(q\) 的负样本,\(\tau\) 是 \(\ell_2\) 归一化的 \(q,k\) 的温度超参。原创 2024-06-15 14:08:05 · 1161 阅读 · 0 评论 -
SimSiam(CVPR 2021)原理与代码解析
本文提出了一种名为SimSiam的简单孪生网络(Siamese network)结构,用于无监督的视觉表示学习。SimSiam提供了一个简单而有效的baseline,能够与现有的更复杂方法相媲美。这表明孪生网络结构本身可能是近期方法成功的核心原因。本文通过实验表明,对于损失和结构确实存在坍塌解,但停止梯度操作在防止坍塌方面起着至关重要的作用。本文还研究了SimSiam与现有的一些方法如SimCLR、SwAV和BYOL的联系,通过移除这些方法中的某些核心组件,可以展示它们之间的关系。文章提出了一原创 2024-04-22 21:47:18 · 1967 阅读 · 0 评论 -
BYOL(NeurIPS 2020)原理解读
本文提出了一种新的自监督学习方法,Bootstrap Your Own Latent(BYOL),和以往需要大量负样本的对比学习方法如SimCLR不同,BYOL不依赖于负样本对。此外,和之前需要精心设计增强策略的对比方法相比,BYOL对图像增强的敏感度较低。BYOL在ImageNet上的linear evaluation取得了新的SOTA,并且在迁移学习和半监督学习的基准测试中表现优异。原创 2024-04-20 14:53:08 · 2159 阅读 · 0 评论 -
SimCLR v2(NeurIPS 2020)论文解读
本文在SimCLR的基础上做了一些改进,提出了SimCLR v2,进一步提升了无监督预训练模型的性能。此外,基于SimCLR v2,本文提出一种新的半监督学习算法,包括无监督预训练、监督微调、知识蒸馏,并在ImageNet上取得了新的SOTA。原创 2024-04-18 22:10:23 · 1166 阅读 · 0 评论 -
MoCo v2 论文解读
这篇文章的内容只有2页,不能称之为paper,作者本人也称之为note。主要内容就是将SimCLR中的两点改进直接拿来用,作者发现它们和MoCo框架是“orthogonal”的关系,可以改进MoCo的效果并取得比SimCLR更好的精度。原创 2024-04-17 11:18:59 · 426 阅读 · 0 评论 -
SimCLR v1(ICML 2020)原理与实现解读
本文提出了SimCLR:一种简单的视觉表示对比学习的框架。通过系统的研究该框架的主要组成部分,作者发现以下几个关键因素对于学习有效的表示至关重要:数据增强的组合在定义有效的对比预测任务中起着关键作用。无监督对比学习相比于有监督学习,从数据增强的获益更多。在representation和对比损失之间引入可学习的非线性变换可以显著提高学习到的表示的质量。归一化的embedding和适当调整的温度参数对使用对比交叉熵损失的representation learning是有益的。对比学习受益于更大的bat原创 2024-04-17 09:44:04 · 1527 阅读 · 0 评论 -
MoCo v1(CVPR 2020)原理与代码解读
本文提出了动量对比(Momentum Contrast,MoCo)作为一种构建大型和一致的字典的方法,用于对比损失的无监督学习原创 2024-04-13 22:07:21 · 1367 阅读 · 0 评论