SimCLR v2算法笔记

最新推荐文章于 2025-03-19 18:40:30 发布

AI之路

最新推荐文章于 2025-03-19 18:40:30 发布

阅读量4.2k

点赞数 3

分类专栏：自监督/半监督文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/u014380165/article/details/110407449

版权

本文介绍了SimCLR v2算法，该算法在自监督预训练后进行微调，并利用蒸馏技术提升模型性能。研究发现网络深度和宽度对效果有显著影响，特别是在少量有标签数据的情况下。SimCLR v2还引入了SK结构，并通过蒸馏提高模型效率。实验表明，即使在1%的有标签数据下，复杂网络也不会过度拟合，且自我蒸馏能进一步提升模型效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：Big Self-Supervised Models are Strong Semi-Supervised Learners
链接：https://arxiv.org/abs/2006.10029

这篇是发表于NIPS2020的SimCLR V2，有非常漂亮的结果。

流程是这样的（参考Figure3）：先在一个无标签数据集上做自监督训练，这部分其实和SimCLR没有太大区别，就是对网络复杂度和非线性变换层做了调整，但是效果大增；然后在一个有标签的小数据集上做fine tune；最后将fine tune的模型作为teacher model做蒸馏，数据集采用的是无标签数据集。

这篇论文在一开始就放出了一个非常重要的结论，那就是在自监督训练（包括fine-tune）过程中，网络结构的复杂性对效果影响很大，具体来说网络结构越宽越深，则效果越好，尤其是当有标签的数据越少时，这种影响越明显。这部分其实在SimCLR论文中也有体现了，参考SimCLR论文中的Figure7，只不过在SimCLR V2中对这方面做了更多的实验（比如fine tune），注：SimCLR中用的网络主要是ResNet-50(4✖️)，SimCLR V2中用的主要是ResNet-152(3✖️+SK)，注意这个SK。

SimCLR V2引入了蒸馏，也就是将fine tune后的复杂模型当做teacher model，蒸馏到简单的student model上，这部分做法的主要初衷应该是在引入复杂网络后出于对模型效率的考虑（当然论文中也做了相同网络的蒸馏，也就是self-distilled，也能进一步提升效果&#x