【文献阅读笔记】Deep Subspace Clustering Networks

沐羽绝不摸鱼

已于 2024-01-19 17:27:21 修改

阅读量1k

点赞数 23

分类专栏：文献阅读笔记文章标签：笔记机器学习人工智能神经网络

于 2024-01-19 11:12:53 首次发布

本文链接：https://blog.csdn.net/weixin_42949680/article/details/135692955

版权

文献阅读笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

标题（paper）：Deep Subspace Clustering Networks

期刊 + 时间 + 有无源代码： NIPS’17: Proceedings of the 31st International Conference on Neural Information Processing Systems + December 2017 Pages 23–32 + 有

作者： Pan Ji, Tong Zhang, Hongdong Li, Mathieu Salzmann, Ian Reid

方法名及缩写： deep subspace clustering networks (DSC-Nets) （based on deep auto-encoders）

算法框架： 首先不加自表达层进行网络参数预训练。然后利用梯度下降（确定方向而不是随机）进行损失函数优化，其中网络参数使用Adam算法调整。

流程图： 在这里插入图片描述

网络结构：堆叠编码器+自表达层+堆叠解码器

$i^{th}$ 层的编码层有 $n_i$ 个核大小为 $k_i \times k_i$ 的通道，权值参数的数量为 $k^2_i n_{n-1} n_i$ ( $n_0=1$ ).

网络全部的权值参数数量为: $\sum_i2k^2_i n_{n-1} n_i$ , 对于 $N$ 个输入图像，自表达层的参数个数为 $N^2$

主要创新点： 在自编器编码层和解码层中间，提出了一种新的自表达层的方法。

动机： 1、大多数子空间聚类方法基于线性映射的方式不合理。2、一般kernel方法自己选哪种kernel，可能效果好但是没有明确理论原因。

目标函数：
$L(\Theta,\mathbf{C})=\frac12\|\mathbf{X}-\hat{\mathbf{X}}_\Theta\|_F^2+\lambda_1\|\mathbf{C}\|_p+\frac{\lambda_2}2\|\mathbf{Z}_{\Theta_e}-\mathbf{Z}_{\Theta_e}\mathbf{C}\|_F^2\quad\mathrm{s.t.}\quad(\mathrm{diag}(\mathbf{C})=\mathbf{0})$
$\Theta$ 是网络参数 $\Theta_e$ 编码器参数， $\Theta_d$ 解码器参数，

$C$ 自表达层系数矩阵

$p$ 是范数，可以是 $l_1$ ， $l_2$ 等范数约束

为了方便更新，上述目标函数被改写（本质同一个）：
$\tilde{L}(\tilde{\Theta})=\frac{1}{2}\|\mathbf{X}-\hat{\mathbf{X}}_{\tilde{\Theta}}\|_{F}^{2}+\lambda_{1}\|\Theta_{s}\|_{p}+\frac{\lambda_{2}}{2}\|\mathbf{Z}_{\Theta_{e}}-\mathbf{Z}_{\Theta_{e}}\Theta_{s}\|_{F}^{2}\quad\mathrm{s.t.}\quad\left(\operatorname{diag}(\Theta_{s})=\mathbf{0}\right),$
$\tilde{\Theta}$ 是网络参数

$\Theta_s$ 就是 $C$

第一项：自编码器的损失函数

第二+第三项：自表达层的损失函数

优化步骤： （网络训练）

1、首先在所有数据上预训练深度自编码器，而不使用自表达层。然后我们使用训练好的参数来初始化网络的编码器和解码器层。

2、在此之后，在微调阶段，使用所有数据构建一个大批，以使用梯度下降方法最小化(4)中定义的损失 L(Θ)。具体来说，我们使用Adam，一种基于自适应动量的梯度下降方法来最小化损失，在所有实验中我们将学习率设置为1.0 × 10−3。由于我们总是在每个训练历元中使用相同的批处理（优化策略是基于确定性动量的梯度方法而不是随机梯度方法。）

注解：（优缺点 + 随便想记的内容）

1、基于深度自编码器实现的方法，在本文中使用了卷积自编码器，但是作者在文中提到也可以用全连接的自编码器代替。
2、代码暂时没看，看了可能更新一点其他内容。
3、DSC-Net-L1 （ $l_1$ 范数约束） DSC-Net-L2 ( $l_2$ 范数约束)