1.Backbone 提取特征 2.neck 更好的提取特征 3.head 利用提取好的特征,完成任务(分类等) 4.bottleneck 将特征维度减少 5.GAP Global Average Pool全局平均池化,就是将某个通道的特征取平均值 6.Embedding 将特征抽取成向量 7.pretext task和downstream task 预训练任务、下游任务 8.temperature parameters 控制softmax的平滑程度,β越大,越平滑 9.Warm up 前面几个epoch,学习率较小 Ref