这篇论文主要贡献点在于应用稀疏表示理论来构建图,并提供了一种比较常用的优化算法,相关论文和代码见http://www.escience.cn/people/fpnie/papers.html(尤其是优化算法的代码,很多地方都能用到)
Abstract
- 基于图的拉普拉斯矩阵用途很广,但是拉普拉斯图的构造存在一些有待讨论的问题;
- 问题包括:如何确定分析的规模,如何确定临近点的数目,如何处理多尺度的数据,如何解决噪声和极端值;
- 本文提出:成对的数据点之间的相似度可以由确定约束的稀疏表示来进行计算;
- 通过无参的方法自动生成拉普拉斯图,这样可以降低计算复杂度同时提高鲁棒性;
- 本文同时提出了一种有效的算法来解决复杂的优化问题。
1
1.1 Background and Motivation
- 图理论是数学的一个重要分支,基于图理论产生了很多算法及应用(聚类算法、半监督学习等),本文仅将讨论范围约束在可以转化成相似度矩阵的数据集;
- 目前针对拉普拉斯图的构造存在的问题,有些方法解决了一部分的问题,如:Self-tuning spectral clustering 解决了如何确定分析的规模及如何处理多尺度的数据,但是尚无方法解决所有的问题;
- 后文将先做铺垫,然后介绍 Simplex Sparse Representation (SSR)方法,并介绍一种新的加速算法。
Different Similarity Graphs
- 这一部分主要介绍了几种目前计算相似度矩阵中各个点之间相似度的方法,包括连接所有相似度小于 ϵ \epsilon ϵ的点;kNN;全连接图,如高斯相似函数;
- 但是这三种方法都存在参数,需要一种无参且具有鲁棒性的方法,这就是本文的动机。
1.2 Introduction to Sparse Representation
- 这一部分介绍稀疏表示的形式,假设数据点为 d × n d\times n d×n 的矩阵, d d d为特征, n n n 为数据点个数。给出一个新的稀疏表示$ y 和 表 示 向 量 和表示向量 和表示向量 \beta , 为 了 得 到 稀 疏 解 , 加 上 零 范 数 的 约 束 , 得 到 目 标 函 数 : ,为了得到稀疏解,加上零范数的约束,得到目标函数: ,为了得到稀疏解,加上零范数的约束,得到目标函数: min β ∥ X β − y ∥ 2 2 + λ 0 ∥ β ∥ 0 \min_{\beta} \left \| X\beta -y\right \|_{2}^{2}+\lambda _0\left \| \beta \right \|_0 minβ∥Xβ−y∥22+λ0∥β∥0$
- L 0 L_0 L0范数可以近似转化成 L 1 L_1 L1范数的形式,这样可以更容易进行优化求解(可以参考这篇博客https://blog.csdn.net/zouxy09/article/details/24971995): min β ∥ β ∥ 1 , s . t . X β = y \min_{\beta} \left \|\beta\right \|_{1}, s.t. X\beta=y βmin∥β∥1,s.t.Xβ=y或者是: min β ∥ X β − y ∥ 2 2 + λ 1 ∥ β ∥ 1 \min_{\beta} \left \| X\beta -y\right \|_{2}^{2}+\lambda _1\left \| \beta \right \|_1 βmin∥Xβ−y∥22+λ1∥β∥1
- 稀疏表示具有鲁棒性,且对数据的规模一致性没有限制,这样可以解决引言中提出的问题。
2 Similarity Matrix Construction with Simplex Representation
- 普遍使用的高斯核函数在构建相似度矩阵时,对于参数十分敏感且难以调参。
- 可以应用稀疏表示来计算相似度矩阵 S S S,第 i i i个特征和其他特征之间的相似度 α i ∈ R n − 1 \alpha_i\in \mathbb{R}^{n-1} αi∈Rn−1表示为:(此处论文是这么写的,但我感觉是笔误吧?应该是 第 i i i个数据点和其他数据点之间的相似度吧) min α i ∥ X − i α i − x i ∥ 2 2 + λ 1 ∥ α i ∥ 1 \min_{\alpha_i} \left \| X_{-i}\alpha_i -x_i\right \|_{2}^{2}+\lambda _1\left \| \alpha_i \right \|_1 αimin∥X−iαi−xi∥22+λ1∥αi∥1其中 X − i X_{-i} X−i表示不含点 x i x_i xi的数据矩阵。
- 加入非负约束 α i ≥ 0 \alpha_i\geq 0 αi≥0,同时考虑到,数据点均等的发生变换的时候,相似度应该是不变的,因此应该再加上约束 α i T 1 = 1 \alpha_i^T\mathbf {1}=1 αiT1=1,这样就有: min α i ∥ X − i α i − x i ∥ 2 2 + λ 1 ∥ α i ∥ 1 s . t . α i ≥ 0 , α i T 1 = 1 \min_{\alpha_i} \left \| X_{-i}\alpha_i -x_i\right \|_{2}^{2}+\lambda _1\left \| \alpha_i \right \|_1\\s.t. \alpha_i\geq 0,\alpha_i^T\mathbf {1}=1 αimin∥X−iαi−xi∥22+λ1∥αi∥1s.t.αi≥0,αiT1=1这其中的约束可以让第二项保持固定,因此变为: min α i ∥ X − i α i − x i ∥ 2 2 s . t . α i ≥ 0 , α i T 1 = 1 \min_{\alpha_i} \left \| X_{-i}\alpha_i -x_i\right \|_{2}^{2}\\s.t. \alpha_i\geq 0,\alpha_i^T\mathbf {1}=1 αimin∥X−iαi−xi∥22s.t.αi≥0,αiT1=1
- 上述目标函数引入了稀疏解,可以用加速投影梯度法来进行优化求解,下一节将对这种方法进行介绍。
3 Optimization Details and Algorithm
- 提出的加速投影梯度法通过逼近和迭代的方法来求解$ \alpha_i$;
- 推导过程略,算法如下:
- 其中的等式13为:
- 算法中收敛的标准是 α i \alpha_i αi的frobenius范数小于 1 0 − 4 10^{-4} 10−4;
- 需要注意的是,这样得到的 S S S是不对称的,因此相似度矩阵需要再进行一步对称化操作: W = S + S T 2 W=\frac{S+S^T}{2} W=2S+ST。
3.1 Optimization Algorithm to Eq.(13)
- 这一部分通过拉格朗日方法求解了等式13,过程略。
4 Experiments on Synthetic DataSets
- 这一部分及下面几节都是实验相关,略。