论文:Big Self-Supervised Models are Strong Semi-Supervised Learners
链接:https://arxiv.org/abs/2006.10029
这篇是发表于NIPS2020的SimCLR V2,有非常漂亮的结果。
流程是这样的(参考Figure3):先在一个无标签数据集上做自监督训练,这部分其实和SimCLR没有太大区别,就是对网络复杂度和非线性变换层做了调整,但是效果大增;然后在一个有标签的小数据集上做fine tune;最后将fine tune的模型作为teacher model做蒸馏,数据集采用的是无标签数据集。
这篇论文在一开始就放出了一个非常重要的结论,那就是在自监督训练(包括fine-tune)过程中,网络结构的复杂性对效果影响很大,具体来说网络结构越宽越深,则效果越好,尤其是当有标签的数据越少时,这种影响越明显。这部分其实在SimCLR论文中也有体现了,参考SimCLR论文中的Figure7,只不过在SimCLR V2中对这方面做了更多的实验(比如fine tune),注:SimCLR中用的网络主要是ResNet-50(4✖️),SimCLR V2中用的主要是ResNet-152(3✖️+SK),注意这个SK。
SimCLR V2引入了蒸馏,也就是将fine tune后的复杂模型当做teacher model,蒸馏到简单的student model上,这部分做法的主要初衷应该是在引入复杂网络后出于对模型效率的考虑(当然论文中也做了相同网络的蒸馏,也就是self-distilled,也能进一步提升效果&#x