Deep Embedded Cluster
简介
一般的聚类算法例如K-means,GMM,这些方法速度快,适用于各种各样的问题, 但是,它们的距离度量仅限于原始数据空间,当输入维度较高时,它们往往无效。因此突出DEC聚类,DEC可以同时学习使用深度神经网络的特征表示和聚类分配,DEC从数据空间学习映射到低维特征空间,在该特征空间中迭代地优化聚类目标。
DEC定义了一个基于质心的概率分布,并将KL散度最小化为一个辅助目标分布,以同时改善聚类分配和特征表示,而不是最小化KL散度以产生忠实于原始数据空间中的距离的嵌入。 基于质心的方法还具有降低 O(nk) 的复杂度的优点,其中k是质心的数量。
DEC通过同时学习特征空间Z中的k个聚类中心 { u j ∈ Z } j = 1 k \{u_{j} \in Z\}_{j=1}^k { uj∈Z}j=1k 和将数据点映射到Z的DNN的参数 θ \theta θ 来聚类数据。DEC具有两个阶段:( 1)使用自动编码器进行参数初始化,(2)参数优化(即聚类),其中我们在计算辅助目标分布和最小化Kullback-Leibler(KL)散度之间进行迭代。
贡献:
(a)深度嵌入和聚类的联合优化;
(b)通过软分配进行新颖的迭代改进;
(c)得出聚类精度和速度方面最先进的聚类结果;
KL散度
给定非线性映射 f θ f_{\theta} fθ 和初始聚类质心 { u j } j = 1 k \{u_{j}\}_{j=1}^{k} { uj}j=1k 的初始估计,DEC使用在两个步骤之间交替的无监督算法来改进聚类。 在第一步中,我们计算嵌入点和集群质心之间的软分配。 在第二步中,我们更新深度映射 f θ f_{\theta} fθ 并通过使用辅助目标分布从当前高置信度分配中学习来优化聚类质心。 重复这个过程直到满足收敛条件。
软分配
基于 t-sne 的思想,DEC使用 t 分布作为核来测量嵌入点和质心之间的相似度。
q i j = ( 1 + ∣ ∣ z i − u j ∣ ∣ 2 / α ) α + 1 2 ∑ j ‘ ( 1 + ∣ ∣ z i − u j ‘ ∣ ∣ 2 / α ) α + 1 2 q_{ij}=\frac{(1+||z_{i}-u_{j}||^2/\alpha)^\frac{\alpha+1}{2}}{\sum_{j^`}(1+||z_{i}-u_{j^`}||^2/\alpha)^\frac{\alpha+1}{2}} qij=∑j‘(1+∣∣zi−u