What Should Not Be Contrastive in Contrastive Learning
引入了一个对比学习框架,该框架不需要事先特定的,与任务相关的不变性的知识,模型学会捕捉通过构建单独的视觉表示的可变和不变因素嵌入到空间,除了扩充之外,每个空间都是不变的。
数据增强的引入是一把双刃剑因为每次数据增强都会增加其中的不变性变多,比如,增加旋转可能会有助于航拍图像识别,但是会大大降低解决其他任务的能力。
在不假定下游不变性的先验知识的情况下,在对比性学习框架中捕获个体变化因素的表示
不是将图像映射到对所有手工扩增都不变的单个嵌入空间,而是学习构造单独的嵌入子空间,每个子空间对特定扩增敏感,而对其他扩增不敏感。
旨在以统一的表示形式保留有关每个扩增的信息,并学习它们的不变性。然后,可以将经过这些扩充训练的一般表示形式应用于不同的下游任务。
不需要手动选择数据增强策略
使用“留一法”策略生成多个视图,然后将它们的表示形式投影到具有对比目标的单独的嵌入空间中,其中每个嵌入空间对于所有扩充都是不变的,或者除了一个扩充之外,其余都是不变的。 学习的表示形式可以是一般嵌入空间V(蓝色区域),也可以是嵌入子空间Z(灰色区域)的串联。
随机扩增的任何视图相同实例的模块T映射到嵌入空间中的同一点上。该属性对学习的表示形式有负面影响:
- 如果将通用性和可传递性应用于必须丢弃的信息是必不可少的任务则会损害通用性和可传递性,例如颜色在鸟类的细粒度分类中起着重要作用
- 增加额外的扩充十分复杂,因为新的运算符可能对某些类别有帮助,而对其他类别则有害,例如,旋转的花朵可能与原始花朵非常相似,而对于旋转的汽车则不适用;
- 控制增强强度的超参数需要针对每种增强进行仔细调整,以在保持快捷方式开放和完全使一个信息源无效之间达到微妙的平衡。
LooC 留一法对比学习
框架可以有选择地防止由于扩充而导致的信息丢失,而不是将每个视图都投影到一个不变于所有扩充的嵌入空间中,在LooC方法中,输入图像的表示被投影到多个嵌入空间中,每个嵌入空间都对于当前扩充改变,而对其他扩充则保持不变。这样,每个嵌入子空间专用于单个扩充,并且共享层将同时包含可变不变信息和不变信息,与几个嵌入空间共同共享表示; 我们要么将共享表示形式转移,要么将所有空间的连接转移给下游任务。
n个增强n+1个z空间,z0是所有的增强都在一起,其他的是不同的增强,每个增强一个嵌入空间
总结
本篇论文主要是说,原来的对比学习都是映射到同一空间,但是这样会有害学习其他的特征,所以他把每个特征都映射到单独的特征空间,这个空间里都只有经过这一种数据增强的数据。
其实说白了还是在说数据增强是要根据下游任务来说的,分成不同的嵌入空间来适合多种不同的下游任务,但是对需要两种以上特征的下游任务效果可能就不好了。比如不仅仅需要结构信息,还需要位置。也不能再去把两个不同的增强再去学习一遍。