用鲁棒学习提升无监督图像聚类

摘要
无监督图像聚类方法通常引入替代目标来间接训练模型,并会受错误预测和过自信结果的影响。为克服这些挑战,当前研究提出一个新颖的模型RUC,受鲁棒学习的启发。RUC的新颖性是在用现有图像聚类方法的伪标签时作为一个可能包含错分类样本的有噪数据集。它的重训练过程可以修改错误对齐的知识,并减轻预测中的过自信问题。这个模型的灵活结构使他可以用作好的聚类方法的一个附加模块,并帮助他们在多数据集上有更好效果。大量实验证明提出的模型可用更好的校准来调整模型置信度,并获得对抗噪声的鲁棒性。

1. 引言
无监督聚类,旨在辨别每个图像的类所属不用任何标签。一个类:有相似视觉特征的图像的group属性。很多研究提出:使用特征空间中的距离作为一个相似度矩阵来分配数据点给类的基于深度学习的算法。
但是,不用真实指导进行训练,容易找到从低层次的视觉特征比如颜色和纹理学习到的琐碎的解决方案。一些研究引入新方法间接指导模型训练,通过设置替代目标。
这篇文章引入一个新的鲁棒学习训练方法,RUC(无监督聚类的鲁棒学习),与现有的聚类模型一起运行来缓解上面的噪声。利用并将现有的聚类模型的结果作为一个可能包含错误标签的有噪数据集,RUC更新模型的错误对齐信息。我们过滤出不干净的样本,并应用loss校正。*(图1)*这个过程用标签平滑和共同训练协助来减小任何来自不干净标签的错误梯度信号。这个用修改后的伪标签的重训练过程进一步正则化模型,并防止产生过自信结果。
RUC包括两个关键部分:(1)提取干净样本;(2)用过滤后的数据集重训练。提出基于置信度,基于矩阵和混合方法来过滤错误分类的伪标签。
第一个方法:将来自原始聚簇模型的高预测置信度的样本视作一个干净集合,它过滤出低置信度样本。这种方法依赖于模型的校准效果。第二种:使用来自无监督嵌入模型的相似度矩阵来用非参数分类器检测出干净样本,通过检查是否给定的样本和top k最近邻样本有相同标签。第三种:结合这两种,并根据两种方法选择可信的样本。

下一步:用采样样本重新训练聚簇模型。我们用MixMatch,一个半监督学习方法,用干净样本作为标签数据,不干净样本作为无标签数据。采样标签平滑来在标签噪声上利用强去噪效果,并阻止从过自信样本中学习。最后,一个共同训练的架构(两个网络)用来减轻训练过程中的来自不干净样本的噪声积累,并增加效果。

用严格的实验方法在数据集上评估RUC,将RUC结合到已有的聚簇模型上效果很好。提升了baseline模型,在对抗噪声上鲁棒,贡献如下:
(1)提出的算法RUC通过重训练和避免过自信预测来帮助已有的无监督聚类模型;
(2)RUC独特的重训练过程帮助已有方法提升效果,对STL-10数据集提升了5.3pp当被加到好的模型中时。
(3)消融实验表明:RUC中每个部分都很重要,包括三个提出的方法(基于置信度、基于矩阵、混合),在从有噪伪标签中提取干净样本时很好。
(4)提出的训练过程对抗对抗噪声时鲁棒,可以用更好的校准调整模型置信度。

2. 相关工作
2.1 无监督图像聚类
聚类的主要目标:将数据点分组为相似特征的不同类。大多现实问题处理高纬度数据(比如图像),因此,在提取低维特征时设置一个具体的相似度概念成为为分组设置合适标准的关键部分。类似的,无监督聚类是研究的一类,旨在解决在学到的相似度矩阵上的维度减小和边界确定问题。现有研究可分类为:有序的,联合的,多步的提纯方法。
有序方法
提取特征,然后有序地应用传统的距离或基于密度的聚簇算法进行类分配。为了特征提取,自动编码器结构通常被用来在分组前提取潜在特征,自动编码器的类型包括:堆叠的,布尔的和可变自动编码器。然而,这些模型通常在簇间产生分离性较小的特征,由于缺少在接下来分配过程中的知识。
联合方法
联合方法的特征是使用一个端到端的观点,同时执行特征提取和类分配。例子:采用聚簇损失的概念来保证簇间有足够的分离性。端到端CNN管道广泛用于迭代的鉴别簇,同时提纯提取特征。最近研究现实:一个基于互信息的目标是有效度量提升分类准确率。但是,模型仍问题:生成意外的解决方案-依赖于来自随机初始化的小的低层次特征。
多步提纯方法
为减少意料外的小的解决方案,最近方法利用无监督嵌入学习模型的力量来提供下游聚簇任务的更好初始化。这些方法产生特征表示来收集有相似视觉特征的数据点,并将剩余的推向嵌入空间。通过初始化,聚簇结果在一个提纯步骤中进行阐述,给类分配质量带来显著提高。特别地,SCAN首先通过特征相似度得到高级别的特征表示,然后通过最近邻聚簇这些表示,并且这个模型在无监督聚簇上有很好效果。
额外模块提升无监督聚类
提出的带有样本选择方法的重训练过程提升了现有的无监督聚类算法(比如有序的,联合的,多步提纯的),作为一个额外模块。模块主要目标:通过标签净化和用净化后标签重训练来修正训练后的聚簇模型的错误对齐的知识,

2.2 用标签噪声进行鲁棒学习
鲁棒学习的一个广泛应用的设定:对手特意破坏标签,否则就来自于一些干净的分布。根据文献,深度网络在训练过程中很容易过拟合标签噪声,并获得一个低的泛化能力。在此基础上,防止在一个噪声标签环境中过拟合的模型被研究。
loss 校正
第一个代表性工作:一个loss校正,明确或间接地重标签不干净的样本。例如,Patrini:估计了标签转换概率矩阵,来修正loss并冲训练模型。为更准确估计转换矩阵,黄金loss校正方法被提出来利用可信任的标签作为额外信息。
Loss 重加权
旨在将一个较小的权重给不干净样本的loss,从而模型可以减少训练过程中标签噪声的负面影响。一个工作计算出重要性作为两个数据分布的逼近比率,干净和不干净。另一方面,主动偏置方法计算出训练过程中的预测不连续性,并分配一个权重来惩罚不干净数据。
样本选择
重标签错分类样本会导致一个错误的校正。这样,很多最近的工作引入了一个样本选择过程来筛选错分类样本,并且仅选择干净数据进行训练。注意的是,小的损失技巧,认为带有小训练损失的样本是干净的,在分离真实和错误标签数据点时很强。并且,最近研究显示了多种不同的导致额外性能的方法,通过保持两个网络来避免积累样本偏差,采用错误标签样本的翻新方法,用一个半监督方法来最大程度使用错标签的样本。我们的模型超过了其中一些样本选择方法来在聚簇结果中过滤不干净样本,并在重训练时仅使用干净样本。

3. 方法
RUC是一种附加的方法,可被用于与现有的无监督聚类方法结合来提纯错误预测。它的关键思想:将初始的聚簇结果用作有噪的伪标签,并学习用一个温和的聚簇假设和鲁棒学习技术来改进它们。图2和算法1:整体的算法框架。给定初始伪标签,首先将训练数据分为两个不连接的集合,干净和不干净(3.1节)。然后将这些集合分别视为干净和不干净数据,我们以一种半监督方式学习一个分类器,同时翻新标记和未标记的数据(3.2节)。我们用鲁棒学习方法指导半监督类分配,比如共同训练和标签平滑,来考虑固有的标签噪声。这些方法在解决标签噪声和校正模型的预测分数时有用,下面:模型细节。
3.1 提取干净样本
训练数据:训练数据 x i x_i xi是一个图像, y i = g ϕ ( x i ) y_i=g_\phi(x_i) yi=gϕ(xi)是来自一个无监督分类器 g ϕ g_\phi gϕ的一个伪标签。模型首先用一种特定的采样策略将伪标签划分为两个不连续集合在这里插入图片描述
X \mathcal{X} X作为干净的,它的伪标签中等可信,因此可被用作一个标记的数据集 ( x , y ) ∈ X (x,y)\in\mathcal{X} (

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值