摘要
这篇文章非常灵活,先训练无监督,把无监督练好了,得出相似度矩阵,然后带到有监督里面,无监督和有监督分属于两种训练,训练过程中互不干扰。
介绍
所谓的有监督,我们在训练过程中不是真的需要每一件样本被标注,我们只需要估计两两之间的相似度就好了,如果只使用标签就太hard了,因为只是0和1. 我们不如用更好的距离表示,提取出暗知识。
无监督之所以不好是因为两点:1,pair-wise的对比知识不够。2,无监督输出的是不准确的语义信息。
这促使我们用无监督的信息去指导一个有监督模型,这是知识蒸馏的另一种研究。
上图的v表示的是原始的数据,f表示的无监督网络生成的学习后的数据。