DEC-DA:Deep Embedded Clustering with Data Augmentation

1 摘要

DEC忽视了关键成分:数据增量, 它被广泛应用于监督深度学习模型中,以提高泛化能力。因此,本文提出带有数据增量的深度嵌入聚类(DEC_DA)。 我们首先训练一个具有增强数据的自动编码器来构造初始特征空间。 然后用聚类损失约束嵌入特征,进一步学习面向聚类的特征。聚类损失由目标标签(伪标签)和特征学习模型的真实输出组成。其中,目标是通过使用干净的(非增强的)数据来计算的,输出是通过增强的数据来计算的。这类似于具有数据增强的监督训练,并且期望也有助于无监督的聚类。 最后,我们实例化了五种基于DEC-DA的算法。 广泛的实验证明,结合数据增强可以大大提高聚类性能。 我们的DEC-DA算法成为各种数据集的新技术 。

2 介绍

深度嵌入聚类(DEC)是指对自动编码器的嵌入特征进行聚类的一系列算法。它有两部分组成:预训练和精调。首先在预训练阶段引入数据增量,它鼓励自动编码器学习更平滑的流形,即更有代表性的特性。然后,精细调整阶段可以进一步分为两个步骤:集群分配和特征学习。我们建议只在特征学习阶段使用数据增强。因为对给定样本的分配是我们所关心的,它们用于计算特征的“目标”学习应该是相对可信的。设定“目标”后,特征学习将受到监督,因此预计将受益于数据增强。

3 相关工作

然而,作者认为去噪自动编码器虽然被广泛应用于深度聚类算法,但是它并不适合聚类任务,因此, 给出了一种替代的自动编码器,它直接使用增强数据(例如,应用随机仿射变换)作为训练数据。

3.1 Denoising Autoencoder

在这里插入图片描述

3.2 Deep Embedded Clustering

在这里插入图片描述
目标函数:
在这里插入图片描述
不同的聚类损失函数Lc
在这里插入图片描述

4 DEC_DA

DEC算法包括两个阶段:通过重建对自动编码器进行预训练,并通过(添加)聚类损失对网络进行细化。 我们建议将数据增强纳入这两个阶段,称为DEC-DA。

4.1 Autoencoder with Data Augmentation

数据增强,如随机旋转、移位和裁剪,被用作监督神经网络中的正则化,以提高泛化能力。将数据增强引入无监督学习模型,如自动编码器,是很简单的。
在这里插入图片描述
理想情况下,使用增广样本学习的流形应该比使用原始样本学习的流形更连续和平滑。 结合数据增强可以帮助自动编码器学习更有代表性的特性。 我们也不通过添加随机噪声来增加输入样本,因为被噪声破坏的样本本质上远离流形。 从这些带有噪声的样本中学习真实的流形将是一项挑战。

4.2 Finetuning with Data Augmentation

因此,提出了DEC-DA的框架,用于细化阶段,如图所示。在这里插入图片描述

目标t是通过clean sample x得到的,输出y是通过augmented sample x。
目标函数:
在这里插入图片描述
对自动编码器进行预训练后,可以从嵌入层中提取所有样本的初始特征。 然后,我们需要计算聚类损失Lc,用于聚类和特征学习。 当我们对Lc进行网络参数优化时,目标t将固定为常数。 这可以被视为监督学习,这应该受益于数据增强。
此外,在聚类中,我们只关心给定样本的聚类分配。 在特征学习期间部署数据增强也是为了方便集群分配。
算法流程:
在这里插入图片描述

4.3 Instantiation and Implementation

5 实验测试

6 参考文献

  1. DEC_DA代码
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值