论文笔记：Improved Deep Embedded Clustering with Local Structure Preservation

最新推荐文章于 2024-01-22 10:12:36 发布

^_^linger^_^

最新推荐文章于 2024-01-22 10:12:36 发布

阅读量1.8k

点赞数 2

分类专栏：深度笔记

本文链接：https://blog.csdn.net/GYY8023/article/details/104641388

版权

深度笔记专栏收录该内容

8 篇文章 3 订阅

订阅专栏

Improved Deep Embedded Clustering with Local Structure Preservation

1 摘要

文章提出的Improved Deep Embedded Clustering
algorithm(IDEC) 考虑到了保留数据结构，利用聚类损失作为指导，操纵特征空间来分散数据点。为了约束数据生成分布的局部结构，采用了一种欠完备的自动编码器。通过融合聚类损失和自动编码器的损失，IDEC联合聚类标签分配和学习适合聚类并保留数据结构的特征，最后的优化问题采用mini-batch梯度下降法和反向传播。

2 研究方法

A、研究框架

该算法主要是DEC版本的改进，包含了一个不完备的自动编码器来保留数据结构，研究框架如下：
在这里插入图片描述

B、Autoencoder

自动编码器是一种神经网络，它被训练来尝试将其输入复制到其输出。在内部，它有一个隐藏层z，用z描述表示输入的代码。整个网络包括两部分编码函数和解码函数，其中解码函数用于产生重构。
在这里插入图片描述

自动编码器有两种类型：
Under-complete autoencoder和
Denoising autoencoder。
1. Under-complete autoencoder
它控制低于输入数据x的潜在数据z的维数。学习这种不完全的表示迫使自动编码器捕获数据的最显著特征。
2. Denoising autoencoder
与重建x给定x不同，去噪自动编码器将以下目标最小化：
在这里插入图片描述
其中，其中 $\tilde{x}$ 是被某种形式的噪声破坏的x的副本。.因此，去噪自动编码器必须从这种损坏中恢复x，而不是简单地复制它们的输入。通过这种方式，去噪自动编码器可以强制编码器和解码器隐式捕获数据生成分布的结构。
在该算法中，去噪自动编码器被用于预训练，欠完备自动编码器用于DEC框架的初始化。

C、IDEC模型

对于数据集X有n个样本组成，每个样本是d维，然后聚类数目K是个先验知识， $\mu$ _j表示第j个簇的质心，也是d维的，s_i $\isin$ {1,2,…,K}表示样本x_i的簇的索引。定义一个非线性映射：
在这里插入图片描述
研究方法的目标就是找到一个好的 $\ f$ _W，为此，两大部分必不可少：自动编码器用于以无监督的方式学习表示，学习的特征可以保留数据中固有的局部结构。聚类损失是从[谢等人，2016年]借来的，负责操纵嵌入空间，以便分散嵌入点。IDEC模型的目标函数定义为：
在这里插入图片描述
1. Clustering loss and Initialization