【文献阅读笔记】Deep Embedding Network for Clustering

最新推荐文章于 2024-07-14 11:42:14 发布

沐羽绝不摸鱼

最新推荐文章于 2024-07-14 11:42:14 发布

阅读量837

点赞数 17

分类专栏：文献阅读笔记文章标签：笔记 embedding 机器学习神经网络图像处理

本文链接：https://blog.csdn.net/weixin_42949680/article/details/135734427

版权

文献阅读笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

这篇文章介绍了一种名为DeepEmbeddingNetwork(DEN)的深度学习模型，它通过在自编码器的特征层引入局部特性和组稀疏约束来改进聚类效果。作者提出了一种两阶段优化方法，包括预训练和微调，用于学习网络权重。尽管文中提及的创新相对常规，但DEN旨在克服现有聚类方法在有效表示学习上的局限性。

摘要由CSDN通过智能技术生成

标题（paper）：Deep Embedding Network for Clustering

期刊 + 时间 + 有无源代码： 2014 22nd International Conference on Pattern Recognition 没收集

作者： Peihao Huang, Yan Huang, Wei Wang, Liang Wang

方法名及缩写： deep neural network based model named deep embedding network (DEN)

算法框架： 自编码器+两个约束（保留局部特性约束，组稀疏约束）

流程图： 在这里插入图片描述

主要创新点： 在自编码器的特征层加入两个约束获得更好的聚类结果（感觉是一个非常常规的创新）

动机： 现有的聚类方法大多侧重于对实例之间的相似/不相似关系进行建模，而忽略了提取更有效的表示，这在很大程度上影响了聚类的性能。（我对这个动机不是很理解，我感觉本文新加的约束，从公式上看好像也是一种特征层中样本的相似关系）

目标函数： (输入数据类型不同，目标函数不同)
$E_r + \alpha E_g + \beta E_s$
$\alpha$ 和 $\beta$ 是需要调整的参数。

$E_r$ 是自编码器的重构损失

$E_g$ 是保留局部特性约束的损失

$E_s$ 是组稀疏约束的损失

$E_r$ ：

encoders:
$f(\mathbf{x})=W_3^T\phi(W_2^T\phi(W_1^T\mathbf{x}))$
$\phi(\mathbf{x})=1/(1+e^{-\mathbf{x}})$

decoders:

二值数据：
$\hat{f}(\mathbf{x})=\phi(W_1^T\phi(W_2^T\phi(W_3^Tf(\mathbf{x}))))\\ E_r=-\sum_{i=1}^N[\mathbf{x}_i\log\hat{f}(\mathbf{x}_i)+(1-\mathbf{x}_i)\log(1-\hat{f}(\mathbf{x}_i))]$
真实值数据：
$\hat{f}(\mathbf{x})=W_1^T\phi(W_2^T\phi(W_3^Tf(\mathbf{x})))\\ E_r=\sum_{i=1}^N\|\mathbf{x}_i-\hat{f}(\mathbf{x}_i)\|^2$
$E_g$ ：
$E_g=\sum_{i,j\in k(i)}S_{ij}\|f(\mathbf{x}_i)-f(\mathbf{x}_j)\|^2$
$S_{ij}$ 是heat kernel: $S_{ij}=e^{-{\frac{\|\mathbf{x}_{i}-\mathbf{x}_{j}\|^{2}}{t}}}(t{\mathrm{~is~a~tuning~parameter}})$

$k (i)$ 是包含数据 $x_i$ 的 $k$ 个近邻索引的集合

$E_s$ ：
$E_s=\sum_{i=1}^N\sum_{g=1}^G\lambda_g\|f^g(\mathbf{x}_i)\|$
将隐藏单元划分为 $G$ 组，其中 $G$ 是假设的簇数。当给定数据点 $x_i$ 时，我们得到变换后的表示 $f(x_i)$ 和 $G$ 组单位 $\{f^g(x_i)\}^G_{g=1}$ 。

$\lambda_g$ 是组稀疏的权重， $\lambda_{g}=\lambda\sqrt{n_{g}}$ ， $n_g$ 是组的大小， $\lambda$ 是常数

优化步骤： 为了学习所提出的深度嵌入网络的网络权重，我们使用了一种两阶段算法，该算法包含一个预训练过程来初始化网络权重，然后是一个微调过程。需要注意的是，这两个过程都是无人监督的。

注解：（优缺点 + 随便想记的内容）

1、一个很常规的换网络层的创新

2、网络预训练步骤我不是很明白

3、本文的动机也看的不是很清楚

restricted Boltzmann machine （RBM）受限玻尔兹曼机

预训练中的一个基本概念。RBM由一个可见层和一个隐藏层组成。可见层的每个节点与隐藏层的每个节点相连，这些节点的值都是二值的。
$F(\mathbf{v},\mathbf{h})=-\mathbf{v}^TW\mathbf{h}-\mathbf{b}_1\mathbf{v}-\mathbf{b}_2\mathbf{h}$
在这里插入图片描述

$v$ 和 $h$ 是可见层和隐藏层的节点。 $W$ 是可见层和隐藏层的权重矩阵。 $b_1$ 和 $b_2$ 是可见层和隐藏层的偏置。

Gaussian restricted Boltzmann machine (GRBM) 高斯受限玻尔兹曼机

与restricted Boltzmann machine （RBM）受限玻尔兹曼机唯一不同是可以处理真实值：
$\begin{aligned}F(\mathbf{v},\mathbf{h})&=\sum_i\frac{\left(v_i-b_i\right)^2}{2\sigma_i^2}-\sum_i\sum_j\frac{v_i}{\sigma_i}W_{ij}h_j-\sum_jb_jh_j\end{aligned}$
${W,b)i,b_j\}$ 是模型参数。 $\sigma_i$ 是第 $i$ 个可见层节点的高斯噪声的标准偏差。