《Unsupervised Deep Embedding for Clustering Analysis》论文学习

最新推荐文章于 2024-05-23 10:13:16 发布

Weyoung_

最新推荐文章于 2024-05-23 10:13:16 发布

阅读量6.9k

点赞数 4

本文链接：https://blog.csdn.net/Weyoung_/article/details/79407651

版权

1. Introduction

聚类在无监督机器学习中由这几个方面进行了研究：如何定义一个类？什么是正确的距离矩阵？如何对数据进行有效聚类？如何验证聚类结果？至今已有许多工作致力于距离函数与嵌入方法的研究，用于执行聚类的特征空间无监督学习的的研究工作还比较少。For all but simplest image datasets,使用欧氏距离的聚类完全失效。本文希望找到一种方案，可以联合解决特征空间学习与聚类关系判别。

本文定义了一个由数据空间X到低维特征空间Z的参数化非线性映射，在低维空间优化聚类目标。此前的工作在数据空间或是浅层线性嵌入空间上进行操作，本文在聚类目标上采用反向传播的SGD来学习映射，该映射被深度神经网络进行了参数化，被称为DEC。

如何优化DEC？本文希望同时解决聚类分配与潜在特征表示的学习，然而无法通过标签数据训练DNN。因此本文提出使用目前的soft cluster assignment派生出的辅助目标分布来迭代细化聚类。这个过程可以同时改进聚类与特征表示。

2. Related work

有些方法可以拥有解决一系列问题，但是它们的距离矩阵限于初始数据空间，当输入维度过高时，它们会变得没有效果。

还有一些方法为了解决高维输入空间的问题：首先使用k-means聚类数据，然后将数据投影到低维使之类间差异最大化。这种框架受限于线性嵌入。

最小化数据分布与嵌入分布间的Kullback-Leibler (KL) divergence被用于数据可视化与降维，例如t-SNE，是一个非参数的方法，其参数化变种通过DNN来参数化embedding。

3. Deep embedded clustering

考虑n个点的聚类问题，将 $\left \{ x_i\in X{} \right \}_{i=1}^{n}$ 划分为k个聚类， $u_j{}$ ,j=1,2……k表示k个聚类中心。并非直接在聚类空间X中聚类，我们首先将数据使用非线性映射 $f_\theta {}$ :X→Z，θ是学习到的参数，Z是潜在特征空间。Z的维度一般来说要比X小的多。使用DNN来参数化 $f_\theta {}$ 。

DEC算法同时学习特征空间Z的k个聚类中心和用于映射的参数θ。DEC有两个阶段：(1)使用deep autoencoder初始化参数 (2)参数优化(聚类)，该过程中，本文在计算辅助目标分布于最小化KL之间交替进行。本文从参数优化过程开始阐述，给定θ与参数中心u的初始估计。

3.1 通过 KL divergence 聚类

给定θ与参数中心u的初始估计，本文提出使用分两步迭代进行的非监督算法来改进聚类。第一步：计算嵌入点与聚类中心间的soft assignment（当某点与某聚类中心依概率符合分布时，将其分配给该中心）；第二步：更新映射 $f_\theta {}$ ，通过从"使用辅助目标分布的高自信assignments"中学习来细化聚类中心。这个过程直到某种收敛准则符合而停止。

3.1.1 SOFT ASSIGNMENT

本文使用学生t-分布作为kernel来衡量嵌入点zi与中心点uj的相似性：

其中，对应于的嵌入点，α是t分布的自由度，可以解释为将样本i分配给聚类j的概率（soft assignment）。因为在非监督学习中无法交叉验证α，所以没必要学习它，统一设置为1。

PS:软分配概念

3.1.2 KL DIVERGENCE MINIMIZATION

在辅助目标函数的帮助下，本文从高自信assignments中学习，迭代精炼聚类。本文模型通过将soft assignment与目标分布进行匹配来进行训练。为实现该目的，本文将目标函数设置为soft assignments与辅助分布之间的KLdivergence损失：

目标分布P的选择对于DEC的表现来说至关重要。幼稚的做法是将每个pi设置为高于置信度阈值的数据点的delta分布（到最近的质心），并忽略其余部分。然而，由于qi是soft assignments，因此随qi使用softer probabilistic targets是一件自然而然的选择。本文希望target distribution具有以下性质：（1）强化预测，（2）更加重视高可信度地分配的数据点，（3）规范每个质心的损失贡献，以防止大类扭曲隐藏的特征空间。

本文实验通过首先将qi提高到第次幂然后按每个簇的频率归一化来计算pi：

其中，是软聚类频率。

3.1.3 OPTIMIZATION

本文联合优化聚类中心uj和DNN的参数θ（通过动量SGD）。L的梯度与数据点zi的嵌入特征空间和每个聚类中心uj有关，如下计算：

梯度随后被传递给DNN，用于标准反向传播来计算DNN的参数梯度为了发现聚类分配的目的，本文设置当少于总量的tol%数据点在连续迭代间改变其所属类时停止优化。

Weyoung_

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
3
评论
《Unsupervised Deep Embedding for Clustering Analysis》论文学习

1. Introduction 聚类在无监督机器学习中由这几个方面进行了研究：如何定义一个类？什么是正确的距离矩阵？如何对数据进行有效聚类？如何验证聚类结果？至今已有许多工作致力于距离函数与嵌入方法的研究，用于执行聚类的特征空间无监督学习的的研究工作还比较少。For all but simplest image datasets,使用欧氏距离的聚类完全失效。本文希望找到一种...
复制链接

扫一扫