在看过上一篇博客中的论文之后,我对对比学习产生了兴趣。近年来,对比学习(Contrastive Learning, CL)在表征学习中取得了重要进展,尤其是在无监督和跨模态任务中,多个研究提出了改进方案以提升其鲁棒性和性能。本文整理了近期阅读的几篇相关论文,总结它们的动机、方法,并结合个人思考。
1、Debiased Contrastive Learning (NeurIPS 2020)
原文:https://arxiv.org/abs/2007.00224
- 动机:在没有访问标签的情况下,不同的(负的)点通常被认为是随机抽样的数据点,隐含地接受这些点实际上可能具有相同的标签。
- 解决:提出通过估计假阴性样本的概率修正对比损失,减少噪声影响。
- 我的想法:在运用对比学习——使正对离得更近同时负对离得更远时,要考虑 假负样本存在 的问题,并思考如何能在无监督的情况下减轻假负样本对对比学习的影响,如添加系数以增大或减小惩罚。
2、Hard Negative Mixing for Contrastive Learning (NeurIPS 2020)
原文:https://arxiv.org/abs/2010.01028
- 动机:为了获得更有意义的负样本,当前的主要对比自监督学习方法要么大幅增加批量大小,要么保持非常大的内存库;然而,增加内存需求会导致在性能方面的回报递减:更多的负样本并不意味着难负样本。
- 解决:提出了特征级的难负样本混合策略MoCHi,即直接在嵌入空间中合成难负样本,适应每个positive query。以最小的计算开销进行实时计算可以提高通过最先进的自监督学习方法学习到的视觉表示的质量。
- 我的想法:难负样本 对对比学习产生的特征表征也有很大的贡献,值得关注。代理任务 难度的提高可以通过混合难负样本或者难负样本和正对,能进一步提高对比学习的效果。
3、 AdaCLR: Adaptive Contrastive Learning of Representation by Nearest Postive Expansion (ICLR 2021)
原文:https://openreview.net/pdf?id=aLIbnLY9NtH
- 动机:现有方法不能在最近正对挖掘上充分利用训练样本。
- 解决:提出了一种新的对比学习方法——自适应自监督对比学习方法AdaCLR来挖掘最近正样本(难正样本)。通过自适应学习获得监控信息来填补自监督和监督对比学习之间的差距。
- 将前k个最相似的对标记为正,用这些伪标记来增强编码器。
- 两阶段训练:第一阶段InfoNCE,第二阶段:每幅图像的前k个最近向量和它本身的增强图像是正对,再以新的目标函数训练。
- 我的想法:很新颖,从 增强正对 而不是负对的角度和通过 两阶段训练 去强化对比学习。
4、EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks(ICML 2019)
原文:https://arxiv.org/abs/1905.11946
- 问题:传统的模型缩放方法都有只考虑单一维度而忽略其他维度对网络性能的影响。
- 解决:提出 复合缩放 的方法:在给定资源预算的情况下,同时均匀地缩放网络的深度、宽度和分辨率,使得每个维度都能得到合理的增长。具体地,作者定义了一个复合系数来控制缩放的程度。
- 我的想法:现在的预训练模型往往需要很长的时间、很强的gpu来预训练,能不能使得训练的 成本降低?或许可以将卷积神经网络换成EfficientNet。
5、Incremental False Negative Detection for Contrastive Learning (ICLR 2022)
原文:https://arxiv.org/abs/2106.03719
- 问题:实例级对比学习忽略了实例间的语义关系,有时不期望地将锚从语义相似的样本中排斥,称为“假阴性”。
- 解决:提出了一种可以增量检测并显式删除假阴性样本的框架。在训练过程之后,该方法动态地检测到越来越多的高质量假阴性,因为编码器逐渐改进,嵌入空间变得更加语义结构化。作者还讨论了两种策略:消除假负样本和将其变为正样本。
- 具体地,聚类获得其中心为伪标签,先用置信度高的伪标签,再线性提高接受率。把伪标签相同的负样本确定为假负样本。
- 我的想法:一种新的减少假负样本带来影响的方法,考虑了语义关系。因为一开始的嵌入空间不稳定,所以采用 增量检测 的方法,这点给我了一些启发。
6、Feature Pyramid Networks for Object Detection(CVPR 2017)
原文:https://arxiv.org/abs/1612.03144
- 问题:针对目标检测中的尺度问题,尤其是小目标检测中存在的卷积神经网络分辨率和语义化程度之间的矛盾问题。
- 解决:在top层得到了语义化程度比较高的特征后,再不断升采样,然后和CNN网络中那些浅层特征融合,融合后的特征既有 较高的语义性,也有 较高的分辨率,这样再去分别预测不同scales的物体就会有比较好的效果了。
- 我的想法:迁移到不同模态的对齐问题上,可以考虑将提取特征网络中 各个层级的特征 拎出来分别作对齐,这样各粒度都可以得到对齐,不知道可不可行。
7、CrossCLR: Cross-modal Contrastive Learning for Multi-modal Video Representations (ICCV 2021)
原文:https://arxiv.org/abs/2109.14910
- 问题:跨模态对比学习更注重不同模态的数据,而非同一模态的数据。现有方法忽略了在公共空间中同一模态下语义相近的数据之间的距离也应该相近的问题。作者还考虑了负样本语义冲突的问题,即假负样本产生的不利影响。
- 解决:1.引入模态内对比学习;2.计算每一个样本的 连接性(即与本batch其他样本的平均相似性),把连接性强的样本从负样例集合中剔除;3.连接性强的样本对跨模态语义空间的贡献比连接性弱的样本更重要,因此对每一个样本根据其连接性赋予计算损失函数时的 不同权重 大小。
- 我的想法:研究跨模态对比学习时,同一模态内特征 之间的关系确实值得关注。假负样本的问题已经出现多次,每篇论文都有自己的解决方法,可以试着将他们的优点结合提出自己的方案。
8、Multimodal Self-supervised Learning for Remote Sensing Data Land Cover Classification (2024)
原文:https://www.sciencedirect.com/science/article/pii/S0031320324007106
- 问题:标注高质量样本困难且耗时,这限制了深度神经网络的性能,因为缺乏足够的监督信息。
- 解决:提出了自监督特征学习模型——由非对称编码器-解码器结构组成,其中深度统一编码器用于特征学习,特定任务解码器完成数据重建任务。为了进一步增强特征提取能力,利用交叉注意力层交换异质特征中包含的信息,从而学习到更多互补信息。
- 我的想法:这篇文章为我提供了 三输入模态 的预训练模型的雏形,引入了 transformer 和交叉注意力层进入我的视野。
9、VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text (NeurIPS 2021)
原文:https://arxiv.org/abs/2104.11178
- 问题:Transformer的大规模监督训练忽略了大量未标记的非结构化视觉信息,且监督训练中带来的偏差系统。有监督训练从根本上限制了Transformer的应用范围,因为要足够多的标签视频数据或图像
- 解决:提出VATT模型:将每个模态线性投影到特征向量中,并将其送到Transformer编码器中,并将编码后的特征在语义分层的不同粒度空间中通过噪声对比估计(NCE)来训练模型。亮点在于Transformer的 权重共享 和 DropToken 机制。
- 我的想法:利用 对比学习和Transformer相结合 来研究多模态数据的预训练模型,采用 随机采样 高维Token来降低计算复杂度。
10、Unsupervised Contrastive Hashing With Autoencoder Semantic Similarity for Cross-Modal Retrieval in Remote Sensing (2025)
原文:https://ieeexplore.ieee.org/document/10870405
- 问题:在遥感领域从不同模态数据中提取的语义信息仍存在大量异质性问题,这导致在哈希学习过程中无法有效利用类内相似性和类间差异,最终导致跨模态检索精度低。此外,基于监督学习的方法需要大量的标记训练样本,这限制了基于哈希的跨模态检索技术在遥感领域的广泛应用。
- 解决:构建了一个端到端的深度哈希模型,主要包括特征提取模块和哈希表示模块。在哈希模块中,我们引入了一种新的多目标损失函数,通过多尺度语义相似性约束和对比学习来增加模态内和模态间语义一致性,并添加了一个 跨自编码模块 来重建和比较哈希特征,以减少学习过程中的语义信息损失。
- 我的想法:本文的 多层语义相似性约束 印证了我前面提出的想法可能是可行的,从而增加模态间和模态内的语义一致性表达,但对于多模态数据的应用上还需要细细琢磨具体地参数设置。
总结:
在系统梳理对比学习相关论文后,我认识到其核心挑战在于 假阴性样本干扰、难样本挖掘不足及跨模态语义鸿沟。解决路径包括:通过动态修正损失或增量检测减少假阴性影响;主动合成难样本(如特征混合)或挖掘难正样本提升表征判别性;结合多层级特征对齐(如FPN思想)与模态交互机制(如交叉注意力)优化跨模态学习。此外,轻量化设计(复合缩放、DropToken)与自监督预训练可平衡效率与性能。后续我还会继续阅读论文以丰富自己的知识体系。