【文献阅读笔记】Towards K-means-friendly Spaces: Simultaneous Deep Learning and Clustering和他的前置文献

沐羽绝不摸鱼

已于 2024-01-11 10:28:26 修改

阅读量980

点赞数 18

分类专栏：文献阅读笔记文章标签：笔记 kmeans 深度学习机器学习神经网络

于 2024-01-10 21:14:13 首次发布

本文链接：https://blog.csdn.net/weixin_42949680/article/details/135513288

版权

文献阅读笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

标题（paper）：Towards K-means-friendly Spaces: Simultaneous Deep Learning and Clustering

期刊 + 时间 + 有无源代码： Proceedings of the 34th International Conference on Machine Learning + 2017 + 有代码（GitHub或者CSDN能搜到）

作者： Bo Yang, Xiao Fu, Nicholas D. Sidiropoulos, Mingyi Hong

方法名及缩写： Deep Clustering Network
(DCN) （图中展示的网络的名字）

算法框架：
在这里插入图片描述

流程图： 非线性映射时的网络结构图：
在这里插入图片描述

对于编码和解码网络，使用 the rectified linear unit (ReLU) activation-based neurons

主要创新点： 利用深度神经网络进行降维，并把降维和k-means聚类步骤整合到一个框架中共同优化。

动机： 大多数学习方法分别(即顺序)处理降维(DR)和聚类，但最近的研究表明，联合优化这两个任务可以大大提高两者的性能。后一种类型背后的前提是数据样本是通过易于聚类的潜在表示的线性变换获得的;但在实践中，从潜在空间到数据的转换可能更复杂。（人话：将线性扩展到非线性）

目标函数：
$\begin{aligned}\min_{\mathcal{W},\mathcal{Z},\boldsymbol{M},\{\boldsymbol{s}_i\}}\sum_{i=1}^N\left(\ell\left(\boldsymbol{g}(\boldsymbol{f}(\boldsymbol{x}_i)),\boldsymbol{x}_i\right)+\frac\lambda2\left\Vert\boldsymbol{f}(\boldsymbol{x}_i)-\boldsymbol{M}\boldsymbol{s}_i\right\Vert_2^2\right)\\(2.4)\\\mathrm{s.t.}\quad s_{j,i}\in\{0,1\},~\mathbf{1}^Ts_i=1\quad\forall i,j,\end{aligned}$
第一项： $\ell()$ ：表示自编码器的重构误差（非线性映射造成的误差）。

第二项：K-means聚类的惩罚项

$f(x_i)=f(x_i,\mathcal{W})$ , 其中 $\mathcal{W}$ 是网络参数， $f(x_i，\mathcal{W})$ 是 $h_i$ 潜在表示和原始数据的非线性映射：
$h_i=f(\boldsymbol{x}_i;\mathcal{W}),\quad f(\cdot;\mathcal{W}):\mathbb{R}^M\to\mathbb{R}^R,$
$g(h_i)=g(h_i,\mathcal{Z})$ , 其中 $\mathcal{Z}$ 是自编码器的参数（网络参数）， $g(h_i,\mathcal{Z})$ 是将潜在表示 $h_i$ 在自编码器中进行重构，防止平凡解（trivial low-dimensional representations）

$\ell(x,y)=\|x-y\|^2_2$ 这个表示最小二乘损失，也可以用KL散度和 $l_1$ -norm 拟合代替

优化步骤： （alternating optimiza-
tion based algorithm）

1、网络预训练：利用分层预训练的方式，训练网络参数 $(\mathcal{W},\mathcal{Z})$ , 获得初始的 $M$ 和 ${s_i}$ .

2、交替随机优化

Update $(\mathcal{W},\mathcal{Z})$ :
$\mathcal{X}\leftarrow\mathcal{X}-\alpha\nabla_{\mathcal{X}}L^{i},$
$\mathcal{X}=(\mathcal{W},\mathcal{Z})$ , $\alpha$ 是先定义的学习率。

Update ${s_i}$ :
$s_{j,i}\leftarrow\begin{cases}1,&\text{if }j=\arg\min_{k=\{1,\ldots,K\}}\left\|f(x_i)-\boldsymbol{m}_k\right\|_2,\\0,&\text{otherwise}.\end{cases}$
Update $M$ :
$\boldsymbol{m}_k\leftarrow\boldsymbol{m}_k-\left(1/c_k^i\right)\left(\boldsymbol{m}_k-\boldsymbol{f}(\boldsymbol{x}_i)\right)s_{k,i},$
$1/c^i_k$ 是梯度步长，控制学习率的参数。

注解：（优缺点 + 随便想记的内容）

1、和Learning From Hidden Traits: Joint Factor Analysis and Latent Clustering有很大的关系，可以简单看作是这篇论文的改进。

2、和Learning From Hidden Traits: Joint Factor Analysis and Latent Clustering的区别：上一篇只考虑了线性分解+k-means，这一篇利用深度神经网络+k-means，可以处理非线性。

3、k-means：
$\begin{aligned}\min_{M\in\mathbb{R}^{\boldsymbol{M}\times K},\{\boldsymbol{s}_i\in\mathbb{R}^K\}}&\sum_{i=1}^N\left\|\boldsymbol{x}_i-\boldsymbol{M}\boldsymbol{s}_i\right\|_2^2&(\\\mathrm{s.t.}&s_{j,i}\in\{0,1\},\boldsymbol{1}^T\boldsymbol{s}_i=1&\forall i,j,\end{aligned}$
4、维度下降+k-means：（就是Learning From Hidden Traits: Joint Factor Analysis and Latent Clustering目标函数）
$\begin{aligned}\min_{{M},\{{s}_{i}\},{W},{H}}\|{X}-{W}{H}\|_{F}^2+\lambda\sum_{i=1}^{N}\|{h}_{i}-{M}{s}_{i}\|_2^2 & \\ +r_1({H})+r_2({W}) & \\ \mathrm{s.t.}\quad s_{j,i}\in\{0,1\},{1}^{T}{s}_{i}=1\quad\forall i,j, & \end{aligned}$

标题（paper）：Learning From Hidden Traits: Joint Factor Analysis and Latent Clustering

期刊 + 时间 + 有无源代码： IEEE TRANSACTIONS ON SIGNAL PROCESSING, + 2017 + 没收集

作者： Bo Yang, Xiao Fu, Nicholas D. Sidiropoulos,

方法名及缩写：

算法框架：

流程图：

主要创新点： 利用先验信息（潜在聚类结构）指导特征分解。可以简单理解为：潜在聚类结构和特征分解的融合。

动机： 考虑到许多数据集在某些降维域中表现出更好的聚类结构

目标函数： （NMF + K-means）
$\begin{gathered} \begin{aligned}\min_{\begin{array}{c}\mathbf{A},\mathbf{B},\mathbf{C}\\\end{array}}\left\|\mathbf{X}_{\left(1\right)}-\left(\mathbf{C}\odot\mathbf{B}\right)\left(\mathbf{D}\mathbf{A}\right)^{T}\right\|_{F}^{2}+\lambda\left\|\mathbf{A}-\mathbf{S}\mathbf{M}\right\|_{F}^{2}\end{aligned} \\ +\eta\|\mathbf{B}\|_F^2+\eta\|\mathbf{C}\|_F^2 \\ \text{s.t. A, B, C}\geq\mathbf{0},\|\mathbf{A}(\ell,:)\|_{2}=1,\forall\ell, \\ \mathbf{D}=\mathrm{Diag}(d_{1},\ldots,d_{I}), \\ \begin{aligned}\|\mathbf{S}(i,:)\|_0=1,\mathbf{S}(i,k)\in\{0,1\},\forall i,k,\end{aligned} \end{gathered}$
特殊情况：采用volmin作为分解准则：
$\begin{aligned}\min_{\underset{\text{W,H}}{\text{W,H}}} & \|\mathbf{X}-\mathbf{WH}\|_{F}^2+\beta\cdot\operatorname{vol}(\mathbf{W})+\lambda\|\mathbf{H}-\mathbf{MS}\|_{F}^2\\ & \text{s.t. H}\geq\mathbf{0},\mathbf{1}^{T}\mathbf{H}=\mathbf{1}^{T},\\ & \|\mathbf{S}(:,j)\|_0=1,\mathbf{S}(k,j)\in\{0,1\}.\\ & \\ & \end{aligned}$
其中第二项是K-means惩罚，它强制H列上的聚类先验，并且调优参数λ≥0平衡数据保真度和聚类先验。

优化步骤： 自己重新查原文，不想看了

注解：（优缺点 + 随便想记的内容）

1、Latent clustering: 将原始数据X映射到某一个潜在表示空间中进行计算样本点之间的距离从而聚类。

2、他在论文里面还提到了很多分解方式+K-means的结合，但是我不想看了，公式看着头疼

沐羽绝不摸鱼

关注

18
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
【文献阅读笔记】Towards K-means-friendly Spaces: Simultaneous Deep Learning and Clustering和他的前置文献

Towards K-means-friendly Spaces: Simultaneous Deep Learning and Clustering 和 Learning From Hidden Traits: Joint Factor Analysis and Latent Clustering的文献笔记，可能存在理解错误，欢迎留言指正
复制链接

扫一扫