Improved Deep Embedded Clustering with Local Structure Preservation
1 摘要
文章提出的Improved Deep Embedded Clustering
algorithm(IDEC) 考虑到了保留数据结构,利用聚类损失作为指导,操纵特征空间来分散数据点。 为了约束数据生成分布的局部结构,采用了一种欠完备的自动编码器。通过融合聚类损失和自动编码器的损失,IDEC联合聚类标签分配和学习适合聚类并保留数据结构的特征,最后的优化问题采用mini-batch梯度下降法和反向传播。
2 研究方法
A、研究框架
该算法主要是DEC版本的改进,包含了一个不完备的自动编码器来保留数据结构,研究框架如下:
B、Autoencoder
自动编码器是一种神经网络,它被训练来尝试将其输入复制到其输出。在内部,它有一个隐藏层z,用z描述表示输入的代码。整个网络包括两部分编码函数和解码函数,其中解码函数用于产生重构。
自动编码器有两种类型:
Under-complete autoencoder和
Denoising autoencoder。
1. Under-complete autoencoder
它控制低于输入数据x的潜在数据z的维数。学习这种不完全的表示迫使自动编码器捕获数据的最显著特征。
2. Denoising autoencoder
与重建x给定x不同,去噪自动编码器将以下目标最小化:
其中,其中
x
~
\tilde{x}
x~是被某种形式的噪声破坏的x的副本。.因此,去噪自动编码器必须从这种损坏中恢复x,而不是简单地复制它们的输入。通过这种方式,去噪自动编码器可以强制编码器和解码器隐式捕获数据生成分布的结构。
在该算法中,去噪自动编码器被用于预训练,欠完备自动编码器用于DEC框架的初始化。
C、IDEC模型
对于数据集X有n个样本组成,每个样本是d维,然后聚类数目K是个先验知识,
μ
\mu
μj表示第j个簇的质心,也是d维的,si
∈
\isin
∈{1,2,…,K}表示样本xi的簇的索引。定义一个非线性映射:
研究方法的目标就是找到一个好的
f
\ f
fW,为此,两大部分必不可少:自动编码器用于以无监督的方式学习表示,学习的特征可以保留数据中固有的局部结构。聚类损失是从[谢等人,2016年]借来的,负责操纵嵌入空间,以便分散嵌入点。IDEC模型的目标函数定义为:
1. Clustering loss and Initialization
2. Local structure preservation
D、模型优化
-
更新自动编码器的权重和簇中心
-
更新目标分布P
E、算法流程
3 实验测试
4 参考文献
[1] Xifeng Guo, Long Gao, Xinwang Liu, Jianping Yin. Improved Deep Embedded Clustering with Local Structure Preservation.IJCAI 2017.
[2] IDEC_python代码