点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
最近对比学习取得了一些突破性进展,加速了非监督学习在真实数据上应用部署。但是现实世界中的未标注数据分布不均衡,具有长尾分布的特点,最新的对比学习方法在实际场景中的表现到底如何,仍是未知。
本文通过自损失型对比学习(SDCLR)框架直面这个问题,无需知道类别信息,自动地平衡表征学习。本文主要受到最近的一些发现启发,深度模型有一些样本是 difficult-to-memorize 的,这些样本在网络剪枝后会暴露出来。由于没有足够的样本,模型对于长尾样本的学习更加困难。因此,SDCLR 的关键创新就是提出了一个动态的self-competitor模型与目标模型进行对比,该self-competitor模型是从目标模型剪枝而来的。
在训练过程中,对于当前的目标模型来说,对比这两个模型就可做到对大多数的容易遗忘样本的自适应在线挖掘,在对比损失中隐式地突出它们的作用。在多个不均衡设定的数据集上,作者进行了大量的实验,结果表明 SDCLR 显著地提升了整体准确率和平衡性。
嘉宾介绍
蒋子宇
TAMU 三年级研究生,导师是 Zhangyang Wang。感兴趣的研究方向是语义分割,自监督学习
背 景
01
长尾分布问题
对比学习在学习有效的图像特征领域取得了不错的成果。在实际的数据集中,数据的分布普遍是符合长尾分布,具体来讲就是自然情况下收集的数据集会出现一类数据偏多,另一类数据偏少的情况。比如收集动物的图像,像猫,狗这种动物的图片就会偏多,像老虎,狮子这种珍稀动物的图像就会偏少。这种就会造成数据集的分布不均衡,形成一种数据集的长尾分布问题。
关于长尾分布问题对于对比学习的影响目前的研究比较少,现有的研究表明对比学习比有监督的学习学习到的特征空间分布更加均衡,如果将对比学习应用于长尾分布数据任务的预训练阶段,就取得不错的结果。
但是,对比学习对于长尾分布问题并不是完全免疫的。长尾分布会使得对比学习偏向于数据集的主要类别,特别是小样本的下游任务中表现明显。近期的研究表示,这是因为即便对比学习不依赖于类别标签,但在长尾分布数据学习过程中,接触的大多还是一些主要类别,稀少类别还是学习的较少,因此对比学习还是会收到数据集分布不均衡(长尾分布)的影响。
长尾分布
02
如何解决对比学习中的长尾分布问题?
假如我们事先获取了类别信息,即了解不同样本类别的数量,那我们可以通过re-sample或re-weighting的方法,重新构造数据集的样本分布。
注:re-sample指利用数据增强的方式,增加样本较少类别的数据量。re-weighting旨在分布较少的类别的loss设置较大的权重,使得该类别对模型的影响变大。
因此对于对比学习来说,最重要是要找出样本比例较少的类别(tail class)。最近的一项工作提出PIEs(剪枝已识别的示例),是指在剪枝过程中,产生的一些与原有的模型预测不一样的结果。简而言之,一般剪枝不会太损害模型准确率,但在剪枝前后模型地预测结果会有一定地变化,PIEs指的是剪枝前后模型预测变化的那部分图像数据,或者说剪枝后模型遗忘的数据。而这些被模型遗忘的数据很大可能都来自于tail class。
PIE
算法模型
根据上述PIE sample的启发,通过剪枝可以获取数据集中的tail class部分。
SDCLR结构是论文提出在旨在解决长尾分布的算法模型。SDCLR 的特点就是利用了2个不同的网络分支:一个是要训练的目标模型,另一个 self-competitor 就是从该模型剪枝而来的。
SDCLR Framework
当tail class的数据同时通过Target model和Self-competitor model,两个模型的输出要进行Enforce consistency的过程,根据PIE的思想,Target model和Self-competitor model对于tail 数据的预测是不一致的,因此loss会变大,然后使得对tail数据的关注就更多,等价于re-weighting的过程,从而实现重构数据集分布的目的。
实验部分
数据集:实验是基于三个不同尺度的不平衡数据集:long tail CIFAR-10、long tail CIFAR -100和ImageNet-LT。另外还考虑了一种更现实、更具有挑战性的长尾分布baseline——ImageNet-100以及另一种具有不同指数采样规则的ImageNet。长尾ImageNet-100包含更少的类,这减少了看起来相似的类的数量,从而更容易受到不平衡的影响。
评价指标:
(1)Linear separability performance:特征空间的平衡性可以通过对所有类的线性可分性来反映。为了测量线性可分性,同样遵循采用三步协议:
i) 使用模型中的损失函数学习训练数据集的视觉表征。
ii) 使用样本类别均衡的数据集。
iii) 评估测试集中线性分类器的准确性。
(2)Few shot performance:选取完整数据集的1%用于不平衡数据集的预训练。
下面展示了不引入SDCLR模型和引入SDCLR模型两种情况下分别基于上述两种精度指标的实验结果。将每个数据集分为两部分:样本均衡数据集和样本不均衡数据集。Many、Medium、Few和All表示的是样本比例。
验证PIEs与tail class的关系:
选择前1%中最容易被剪枝后的模型遗忘的样本,发现随着训练持续迭代,样本量为“many”的类别占比是减少的,这说明基于PIEs的启发进行tail class的处理是得到验证的。
SDCLR 加强了tail数据
总 结
本次分享中,利用SDCLR的原理框架,提高了对比学习对不平衡未标记数据的鲁棒性。算法的启发来源于PIE 样本的思想。通过跨多个数据集和不平衡设置的广泛实验,表明SDCLR可以显著缓解不平衡。未来可以将探索将SDCLR扩展到更多的对比学习框架上。
论文信息
论文:
《Self-Damaging Contrastive Learning》
Code:
https://github.com/VITA-Group/SDCLR
今日视频推荐
整理:于洁
审核:蒋子宇
AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!
请将简历等信息发至yun.he@aminer.cn!
微信联系:AITIME_HY
AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。
更多资讯请扫码关注
我知道你 在看 哦
点击 阅读原文 观看精彩回放!