原型对比学习:图像表征与聚类中心之间的交互,可以简单总结为在表征空间中最大化图像特征与其所属的聚类中心的相似度。
分层语义结构 自然存在于图像数据集中,其中几个语义相关的图像簇可以进一步集成到一个更大的簇中,具有更粗粒度的语义。用图像表示捕获这样的结构可以极大地促进对各种下游任务的语义理解。现有的对比表示学习方法缺乏如此重要的模型能力。此外,这些方法中使用的负样本对不能保证在语义上是不同的,这可能会进一步妨碍学习图像表示的结构正确性。
在这个框架中,一组层次原型被构建并动态更新,以表示隐空间中数据背后的层次语义结构。该方案旨在 选择具有相似语义的更多样化的正对和具有真正不同语义的更精确的负对。
在过去的几年里,自监督图像表示学习取得了长足的进步,其中基于解决信息难题的传统方法 [12, 16, 33, 34, 49] 明显被对比学习方法 [6-8, 19,36]超越。
现有的对比方法主要可以分为两类,实例对比学习[7 SimCLR,19 MoCo,36 CPC]和原型对比学习[6 SwAV,27]。
1.实例对比 旨在隐空间中 将相似的实例映射到附近,同时 将不同的实例映射到相距较远,这保证了不同图像表示之间的合理局部结构。
2.原型对比 旨在获得 聚集在相应聚类中心周围的 紧凑图像表示,它捕获了一些可以由单个聚类层次结构表示的基本语义结构。
然而,在对可能始终 拥有多个语义层次