【文献阅读笔记】Unsupervised Deep Embedding for Clustering Analysis

沐羽绝不摸鱼

已于 2024-01-22 09:15:50 修改

阅读量1k

点赞数 23

分类专栏：文献阅读笔记文章标签：笔记 embedding 机器学习神经网络

于 2024-01-11 13:08:23 首次发布

本文链接：https://blog.csdn.net/weixin_42949680/article/details/135525574

版权

文献阅读笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

文章介绍了一种名为DeepEmbeddedClustering(DEC)的无监督学习方法，它利用深度神经网络同时学习特征空间和聚类分配。DEC通过迭代优化基于KL散度的目标函数，自动生成特征表示并改进聚类效果。这种方法在特征空间选择和聚类任务中提供了一种数据驱动的解决方案。

摘要由CSDN通过智能技术生成

标题（paper）：Unsupervised Deep Embedding for Clustering Analysis

期刊 + 时间 + 有无源代码： Proceedings of the 33 rd International Conference on Machine
Learning + 2016 + 没收集

作者： Junyuan Xie， Ross Girshick， Ali Farhadi

方法名及缩写： Deep Embedded Clustering
(DEC)

算法框架： 使用从当前软聚类分配中派生的辅助目标分布来迭代地改进聚类。这个过程逐步改进了聚类和特征表示。

DEC的工作原理是迭代优化基于KL散度的聚类目标和自训练目标分布。

流程图： 在这里插入图片描述

DEC模型分为两个部分：（1）自编码器用于参数初始化；（2）参数优化(即聚类)。

主要创新点： 利用深度神经网络同时学习特征空间和分配聚类。

动机： 特征空间的选择通常作为应用程序特定的细节留给最终用户来决定。然而很明显，特征空间的选择是至关重要的;除了最简单的图像数据集，在原始像素上使用欧几里德距离聚类是完全无效的。在本文中，我们重新审视了聚类分析，并提出了一个问题：我们能否使用数据驱动的方法来共同解决特征空间和聚类隶属关系?

目标函数：

第一部分：自编码器作非线性映射： $f_{\theta}:X\to Z$ 其中 $\theta$ 是可以学习的参数， $Z$ 潜在特征表示。

DEC：

（1）初始化参数 $\theta$ 和 $\{\mu_j\}^k_{j=1}$ k个类的类中心点。

（2）利用KL散度进行聚类：

第一步计算软聚类
$q_{ij}=\frac{(1+\|z_i-\mu_j\|^2/\alpha)^{-\frac{\alpha+1}2}}{\sum_{j^{\prime}}(1+\|z_i-\mu_{j^{\prime}}\|^2/\alpha)^{-\frac{\alpha+1}2}},$
$\alpha$ 是Students t 分布的自由度（ $\alpha=1$ ）

$q_{ij}$ 是样本 $i$ 被分配到第 $j$ 个类的概率
KL 散度最小化
$L=\mathrm{KL}(P\|Q)=\sum_i\sum_jp_{ij}\log\frac{p_{ij}}{q_{ij}}.$

$p_{ij}$ 是辅助分布（对最终的表现影响大）

确定 $p_{ij}$  ：
$p_{ij}=\frac{q_{ij}^2/f_j}{\sum_{j^{\prime}}q_{ij^{\prime}}^2/f_{j^{\prime}}},$
$f_j=\sum_iq_{ij}$ 是软聚类的频率。

对上述目标函数的总结：

首先DEC预训练模型，然后去掉自编码器的解码部分。

那么，现在的编码器：
$L=KL(P\|Q)=\sum_i\sum_jp_{ij}\log\frac{p_{ij}}{q_{ij}}$
$q_{ij}$ 是特征空间 $z_i$ 和聚类中心 $\mu_j$ 的相似度（可以看作是 $z_i$ 有多大可能属于 $\mu_j$ 这个类）。 $q_{ij}$ 的计算是学生 t-分布：
$q_{ij}=\frac{(1+\|z_i-\mu_j\|^2)^{-1}}{\sum_j(1+\|z_i-\mu_j\|^2)^{-1}}$
$p_{ij}$ 是目标分布：
$p_{ij}=\frac{q_{ij}^2/\sum_iq_{ij}}{\sum_j\left(q_{ij}^2/\sum_iq_{ij}\right)}$
目标分布 $P$ 是由 $Q$ 定义的，所以最小化 $L$ 是一种自我训练

优化：

$z_i=f_W(x_i)$ 是编码器的映射。在预训练之后，对 $z_i$ 利用k-meas获得最初的聚类中心点 $\mu_j$ ，然后最小化 $L$ （梯度下降的方法计算），这里样本 $x_i$ 的预测标号为 $argmax_jq_{ij}$ .

对于方向传播：根据 $\partial L/\partial z_i$ 去反向更新编码器 $f_W()$ , 通过 $\partial L/\partial \mu_j)$ 更新聚类中心点 $\mu_j$
$\mu_j=\mu_j-\lambda\frac{\partial L}{\partial\mu_j}$

优化步骤： 使用带动量的随机梯度下降(SGD)方法对聚类中心 $\{\mu_j\}$ 和DNN参数 $\theta$ 进行联合优化。
$\begin{matrix}\frac{\partial L}{\partial z_i}&=&\frac{\alpha+1}{\alpha}\sum_j(1+\frac{\|z_i-\mu_j\|^2}{\alpha})^{-1}&(4)\\&&\times(p_{ij}-q_{ij})(z_i-\mu_j),\\\frac{\partial L}{\partial\mu_j}&=&-\frac{\alpha+1}{\alpha}\sum_i(1+\frac{\|z_i-\mu_j\|^2}{\alpha})^{-1}&(5)\\&&\times(p_{ij}-q_{ij})(z_i-\mu_j).\end{matrix}$
然后将梯度 $\frac{\partial L}{\partial z_i}$ 传递给DNN，并在标准反向传播中使用，以计算DNN的参数梯度 $\frac{\partial L}{\partial\theta}$ 。为了发现聚类分配，当在两个连续迭代之间更改聚类分配的点少于 $tol\%$ 时，迭代停止该过程

注解：（优缺点 + 随便想记的内容）

1、初始化DEC利用 stacked autoencoder (SAE)

2、自编码器的设计和优化可以查原文

3、所有数据集的网络层数d–500–500–2000–10，d是数据空间的维度

4、基于DAE的改进

5、DEC在预训练之后舍弃了解码过程，同时根据聚类过程实时更新编码器，在DEC中也只考虑了聚类损失（关于这一点我感觉DEC像是把编码过程给他融合到了聚类过程之中，可以理解为在传统方法中将各类范数或者是原始数据重构的过程融合到目标函数中，算在聚类的一个环节里）

沐羽绝不摸鱼

关注

23
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
【文献阅读笔记】Unsupervised Deep Embedding for Clustering Analysis

Unsupervised Deep Embedding for Clustering Analysis论文笔记，如有错误欢迎评论指正
复制链接

扫一扫