【文献阅读笔记】Deep Subspace Clustering with Sparsity Prior

最新推荐文章于 2024-07-14 11:42:14 发布

沐羽绝不摸鱼

最新推荐文章于 2024-07-14 11:42:14 发布

阅读量787

点赞数 19

分类专栏：文献阅读笔记文章标签：笔记机器学习神经网络

本文链接：https://blog.csdn.net/weixin_42949680/article/details/135728174

版权

文献阅读笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

本文介绍了一种名为PARTY的深度学习方法，它在深度子空间聚类中引入了稀疏先验，通过多层网络结构增强数据的非线性建模能力。与传统方法不同，PARTY不依赖亲和矩阵，而是学习数据的低维表示，并结合自编码器的原理进行优化。算法通过随机梯度下降优化网络参数，提供更好的可扩展性和性能。

摘要由CSDN通过智能技术生成

标题（paper）：Deep Subspace Clustering with Sparsity Prior

期刊 + 时间 + 有无源代码： Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence (IJCAI-16) 2016 没收集

作者： Xi Peng, Shijie Xiao, Jiashi Feng, Wei-Yun Yau, and Zhang Yi

方法名及缩写： deeP subspAce clusteRing with spar siTY prior (PARTY)

算法框架： 在这里插入图片描述

流程图： 在这里插入图片描述

网络参数： 网络包括 $M + 1$ 层对应 $M$ 个非线性变化（M是偶数）, 签 $M /2$ 层是编码层，剩下的是解码层。

第一层： $h^{(0)}_i=x_i$ ，

第 $m$ 层：
$\mathbf{h}_i^{(m)}=g(\mathbf{W}^{(m)}\mathbf{h}_i^{(m-1)}+\mathbf{b}^{(m)})\in\mathbb{R}^{d_m}$
$W^{m}$ 是权重， $b^{m}$ 是偏差，这两都可以简单理解为网络层参数。 $g ()$ 是非线性映射函数

主要创新点： （这个是我自己的主观感受）在深度子空间聚类的框架中引入稀疏先验特性。

（这是他文章里给出的创新说明）

可以看出，PARTY与现有的子空间聚类方法在以下几个方面有显著的不同:1)PARTY不依赖于亲和矩阵，而是直接学习数据的低维表示;2) PARTY具有多层结构，具有较强的数据非线性建模能力;3) PARTY虽然部分类似于堆叠自编码器(SAE)，但它不仅考虑了重构输入数据的局部性，而且在表示学习中引入了结构化的全局先验;4)与基于内核的方法相比，PARTY提供了显式的转换和更好的可扩展性，因为它避免了加载所有数据来计算内核函数;5) PARTY与k-means和大多数现有子空间聚类方法兼容。

动机： 1、现有的方法大多致力于构建高质量的亲和矩阵，而忽略了由亲和矩阵得到的低维表示的重要性。

2、现有的都是线性映射，网络可以进行非线性映射。（现有的方法大多基于浅线性模型，在处理具有非线性结构的数据时可能会失败。）

目标函数：
$KaTeX parse error: Undefined control sequence: \lparen at position 442: …3}, & & \text{\̲l̲p̲a̲r̲e̲n̲4\rparen}\end{a…$
$J_1$ : 样本的重构损失（自编码器产生）
$J_2$ : 自表示误差（ $C$ 表示原始数据的稀疏先验信息）
$J_3$ : 正则化项（避免网络重构样本的时候过拟合）

$C$ 的求法：
$\begin{aligned}&\min_{\mathbf{C}}\sum_{i=1}^n\|\mathbf{x}_i-\mathbf{X}\mathbf{c}_i\|_2^2+\lambda\|\mathbf{c}\|_1\\&\text{s.t. }\mathbf{c}_{ii}=0,\end{aligned}$
本文的聚类方法：在这里插入图片描述

优化步骤： stochastic sub-gradient descent. 随机亚梯度下降：
$\begin{aligned}\mathcal{J}&=\frac{1}{2}\sum_{i=1}^n\left(\|\mathbf{x}_i-\mathbf{h}_i^{(M)}\|_2^2+\lambda_1\|\mathbf{h}_i^{(\frac{M}{2})}-\mathbf{H}^{(\frac{M}{2})}\mathbf{c}_i\|_2^2\right)\\&\quad+\frac{\lambda_2}{2}\sum_{m=1}^M\left(\|\mathbf{W}^{(m)}\|_F^2+\|\mathbf{b}^{(m)}\|_2^2\right),\quad\quad(6)\end{aligned}$
更新 $W^m$ 和 $b^m$ :
$\begin{aligned}\frac{\partial\mathcal{J}}{\partial\mathbf{W}^{(m)}}&=\left(\boldsymbol{\Delta}^{(m)}+\lambda_1\boldsymbol{\Lambda}^{(m)}\right)(\mathbf{h}_i^{(m-1)})^T+\lambda_2\mathbf{W}^{(m)}\\\frac{\partial\mathcal{J}}{\partial\mathbf{b}^{(m)}}&=\boldsymbol{\Delta}^{(m)}+\lambda_1\boldsymbol{\Lambda}^{(m)}+\lambda_2\mathbf{b}^{(m)},\end{aligned}$
${\Delta}^{(m)}$ :
$\left.\left\{\begin{aligned}-\left(\mathbf{x}_i-\mathbf{h}_i^{(M)}\right)\odot g'(\mathbf{z}_i^{(M)}),&&m=M\\(\mathbf{W}^{(m+1)})^T\boldsymbol{\Delta}^{(m+1)}\odot g'(\mathbf{z}_i^{(m)}),&&\text{otherwise}\end{aligned}\right.\right.$
$\boldsymbol{\Lambda}^{(m)}$ :
$\left.\left\{\begin{aligned}(\mathbf{W}^{m+1})^T\mathbf{\Lambda}^{(m+1)}\odot g'(\mathbf{z}_i^{(m)}),&&m=1,\cdots,\frac{M-2}2\\\left(\mathbf{h}_i^{(\frac M2)}-\mathbf{H}^{(\frac M2)}\mathbf{c}_i\right)\odot g'(\mathbf{z}_i^{(\frac M2)}),&&m=\frac M2\\\mathbf{0},&&m=\frac{M+2}2,\cdots,M\end{aligned}\right.\right.$
$\odot$ : element-wise multiplication (Hadamard product)
$\begin{aligned}\mathbf{W}^{(m)}&=\mathbf{W}^{(m)}-\mu\frac{\partial\mathcal{J}}{\partial\mathbf{W}^{(m)}},\\\\\text{and}\\\mathbf{b}^{(m)}&=\mathbf{b}^{(m)}-\mu\frac{\partial\mathcal{J}}{\partial\mathbf{b}^{(m)}},\end{aligned}$
$\mu > 0$ 是学习率，在这篇文章中设置为 $2^{-10}$

注解：（优缺点 + 随便想记的内容）

1、 $M$ 网络层数，预先定义，该网络也需要预训练和调参（我没注意到论文里有没有说所用的技术）

2、可以看作是基于DSC-Nets（上一篇笔记）网络的改进

3、和DSC-Nets相比，个人感觉：

（1）DSC-Nets在网络结构里面对自表达系数矩阵 $C$ 进行约束，比如 $l_1$ 或者 $l_2$ 范数表示期望 $C$ 具有不同类型的特性（ $C$ 矩阵是要跟着网络损失最小不停迭代的）。但是PARTY将 $C$ 作为先验信息输入到网络中（在网络训练之前，根据原始数据求出可以表示稀疏特性的 $C$ ），在求解网络损失最小时 $C$ 是不变的，仅仅跟新网络参数 $W^m$ 和 $b^m$ 。