【机器学习】LPP\NPE\SR\SPP\CRP\RPCA\LRR\LRPP\LRPE\ LR-2DNPP\OMF-2DPCA等

最新推荐文章于 2022-05-08 16:16:14 发布

Nine_xu

最新推荐文章于 2022-05-08 16:16:14 发布

阅读量3k

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/lameraaa/article/details/100999647

版权

机器学习专栏收录该内容

13 篇文章 3 订阅

订阅专栏

文章目录

LPP
NPE
SR
SPP
LSPE
CRP
RPCA
LRR
LRPP
LRPE
NN_LRR
----------------华丽的分割线------------------------
LR-2DNPP
OMF-2DPCA

LPP

类似于PCA，LPP也是一个非监督降维方法。PCA保留了数据的全局结构，而LPP保持数据的局部结构。
LPP的目标函数如下： $\frac{1}{2}\sum_{ij}^nH_{ij}||y_i-y_j||_2^2$ 其中 $y_i=p^Tx_i$ 和 $y_j=p^Tx_j,i=1,2,...,n$ ， $H_{ij}$ 是权重系数矩阵，定义如下
$H_{ij} = \begin{cases} e^{(-||x_i-x_j||^2/t}), & \text {if $i$ and $j$ is connected} \\ 0, & \text{otherwise} \end{cases}$
目标函数可被重写： $\frac{1}{2}\sum_{ij}^nH_{ij}||y_i-y_j||_2^2=\frac{1}{2}\sum_{ij}^nH_{ij}||p^Tx_i-p^Tx_j||_2^2=p^TX(D-H)X^Tp=p^TXLX^Tp$ 其中 $D$ 是对角矩阵，它的元素是 $H$ 的行元素之和。 $L = D - H$

NPE

类似于LPP，NPE也是保持数据的局部领域结构，NPE的目标函数如下：
第一步NPE通过最小化局部近似误差来求得系数矩阵 $W$
$\phi(W )=\sum_i||x_i-\sum_jW_{ij}x_j||^2$ 其中 $x_j$ 是 $x_i$ 的k近邻。
第二步通过最小化下式来求得投影矩阵 $\Phi(p)=\sum_i(p^Tx_i-\sum_jW_{ij}p^Tx_j)^2$ 其中，这里的 $W_{ij}$ 是第一步结束后得到的最优的。
为了优化第二步，可把上式转化为： $min_p\frac{p^TXMX^Tp}{p^TXX^Tp}$ 其中 $M=(I-W)^T(I-W)$

SR

理论：当提供一组基（或字典）时，通过字典中的很少关键字就能对信号进行重构.
给定过完被字典 $X=[x_1,x_2,...,x_n]∈R^d$ ，目的是用 $X$ 中尽可能少的元素来重构 $x$ ：
$min_s||s||_0 , s.t.x=Xs$ 就不解释了：
$min_s||s||_1 , s.t.x=Xs$

SPP

LPP和NPE在降维过程中保持邻域信息，且基于LPP和NPE的权重矩阵都有一个共同的特性：稀疏。SPP关注全局信息旨在对每一个样本，基于剩余的样本的Lasso线性重构，通过改进的稀疏表示来构造邻接权重矩阵。SPP使用L1正则化来最小化目标函数，如下：
第一步： $min_{s_i}||s_i||_1,s.t.x_i=Xs_i,1=1^Ts_i$ 或者表示为： $min_{s_i}||x_i-Xs_i||_2^2+\lambda||s_i||_1$ 其中 $s_i=[s_{i1},...,s_{i,i-1},0,s_{i,i+1},...,s_{in}]^T$ ， $1$ 是全1列向量。
从这里可以看出SPP还解决了最近邻k的取值对图学习的影响。
第二步： $min_w\sum_{i=1}^n||w^Tx_i-w^TXs_i||^2$ 这里的 $s_i$ 是第一步后得到的最优的 $s_i$ ，为优化第二步，施加约束 $w^TXX^Tw=1$ ，可把上式转为：
$max_w\frac{w^TXS_{\beta}X^Tw}{w^TXX^Tw}$ 其中 $S_{\beta}=S+S^T-S^TS$ 。

LSPE

SPP的不足：

SPP首先是在原始特征空间中学习稀疏重构系数矩阵S，然后寻找投影来最好的保留这个最优的S。
LCC中说，局部性比稀疏性重要，因为局部性必然会导致稀疏性，而稀疏性并不一定会导致局部性

LSPE就是基于局部化和相似性保持嵌入的特征选择：
目标函数：
$min_{A,S}\sum_{i=1}^n||A^T(x_i-Xs_i)||^2+\frac{1}{2} \beta\sum_{i=1}^n\sum_{j=1}^n||s_i-s_j||^2W_{i,j}+\alpha||A||_{2,1}$

CRP

CRP也是关注于全局，和SPP不同的是CRP旨在对每一个样本，基于剩余的样本的riged线性重构，构造L2图。CRP使用L2正则化来最小化目标函数，如下：
第一步： $min_{s_i}||x_i-Xs_i||_2^2+\lambda||s_i||_2，s.t.1=1^Ts_i$ 其中 $s_i=[s_{i1},...,s_{i,i-1},0,s_{i,i+1},...,s_{in}]^T$ 。回头看一下SPP是不是只有后面不同，一个是1，一个是2。
第二步： $min_w\sum_{i=1}^n||w^Tx_i-w^TXs_i||^2$ 这里的 $s_i$ 是第一步后得到的最优的 $s_i$ ，为优化第二步，施加约束 $w^TXX^Tw=1$ ，可把上式转为： $max_w\frac{w^TXS_{\beta}X^Tw}{w^TXX^Tw}$ 其中 $S_{\beta}=S+S^T-S^TS$ 。

RPCA

由于在实际应用中，PCA对大噪声缺乏鲁棒性，也就是在大噪声的破坏下，PCA得到的子空间可能大大偏离底层的真子空间结构，于是RPCA出现了，，RPCA目标函数如下： $min_{Y,E}||Y||_*+\lambda||E||_1$ RPCA能够很好的处理的噪声影响，前提是噪声是稀疏的，并且是只有一小部分有噪声。但是在实际应用中，数据通常是大规模损坏的，RPCA就很难产生模型来预测新数据。因为噪声 $E$ 通常是不稀疏的。且需要处理所有的数据。

LRR

根据RPCA，LRR出现了，LRR的主要思想是获取给定字典的样本的低秩表示，LRR问题可以描述为： $min_W||W||_*,s.t.X=AW$ 其中 $A=[a_1,...,a_d]$ 是字典， $W=[w_1,...w_n]$ 是系数矩阵。
在实际应用中，为了提取数据的内在结构，通常采用样本矩阵作为字典，这就产生了数据的自表示特性： $min_W||W||_*,s.t.X=XW$ 然而，数据常被多种噪声干扰，为增强鲁棒性，上式可改为： $min_W||W||_*+\lambda||E||_{l},s.t.X=XW+E$ 其中 $E∈R^{m*n}$ 是误差矩阵。

注1：当 $A$ 取 $I$ , $l$ 取1时，LRR就是RPCA
注2：《Robust subspace segmentation by low-rankrepresentation》这篇论文，取 $A$ 为 $X$ , $l$ 为2，1，就是：
$min_W||W||_*+\lambda||E||_{2,1},s.t.X=XW+E$

但是类似于RPCA,LRR还是一种转变方法，不能有效处理新数据。也需要处理所有的数据。

LRPP

为了提高LPP对噪声的鲁棒性，假设噪声是稀疏的，LRPP使用数据的低秩表示来构造关系图。LRPP的目标函数如下： $min_{P,W,E}\frac{1}{2}\sum_{i,j=1}^n(W_{ij}+W_{ji})||P^Tx_i-P^Tx_j||^2_2+\alpha||W||_*+\beta||E||_{2,1}，s.t.X=XW+E$

LRPE

LRPE是在LRR的基础上，使用其权重矩阵 $W$ 。
第一步： 通过LRR，获得权重矩阵 $W$ ：
$min_W||W||_*+\lambda||E||_{2,1},s.t.X=XW+E，1^Tw_i=1$ 或者： $min_W||W||_*+\lambda||E||_{2,1},s.t.||X-XW+E||_F^2\leq\epsilon，1^Tw_i=1$ 其中 $E$ 是误差矩阵, $\epsilon$ 是容忍的噪声误差。
第二步： 因为权重矩阵 $W$ 捕捉了原始样本的几何信息和重要的结构，希望在子空间中也能拥有同样的结构，所以： $min_p||Y-YW||_F^2,s.t.y_iy_i^T=1,i=1,...d.$ 施加约束 $y_iy_i^T=1$ 来避免scaling problem， $Y=P^TX$ 。 $d$ 是子空间维度。
为优化第二步，施加约束 $p_i^TXX^Tp=1$ ，可把上式转为： $min_pTr(P^TXMX^TP),s.t.p_i^TXX^Tp=1$ 其中 $M=(I-W)(I-W)^T$ ，同理可以转变为同上最大化问题。

NN_LRR

解决局部全局的问题、自表示的问题 $min_{Z,E}\sum_{i,j}^n||x_i-x_j||_2^2z_{ij}+\lambda_1||Z||_*+\lambda_2||E||_1$ $s.t.X=XZ+E,diag(Z)=0,Z\geq0$

----------------华丽的分割线------------------------

以上算法通常把矩阵图片样本转换为1维向量进行运算，这导致计算时间更长，并且可能会导致图片结构信息的丢失

LR-2DNPP

首先分析已有算法不足：

计算量大，2D->1D可能会导致结构信息丢失
几乎所有的2D算法都施加 $L_2$ 范数，而平方范数对噪声敏感
改用 $L_1$ 范数后，虽然保证了可以用较少的（同类样本）来进行表示，但是这些算法不能从噪声数据中恢复出干净的数据

所以 $L R - 2 D N P P$ 首先把数据分成编码低秩特征的部分和保证误差稀疏的误差部分，然后使用与 $2 D N P P$ 相同的方式，从干净数据中学习 $N N$ 图。

给定样本 $X=[X_1,...,X_n]∈R^{a*q}$ ，其中 $X_i∈R^{a*b},q=bn$ 。

首先：将2D数据分成低秩干净数据矩阵A和噪声矩阵E $min_{A,E}rank(A)+\lambda||E||_1，s.t. X=A+E$ 其次：得到干净数据矩阵A后，使用矩阵A而不是原始矩阵X做如下操作 $min_{A,E,V}\sum_{i=1}^n||Y_i-\sum_{j=1}^kw_{ij}Y_j||_F^2$ 其中 $Y_i=V^TA_i$ ， $W=min_w\sum_{i=1}^n||A_i-\sum_jw_{ij}A_i||_F^2$ ，为了避免冗余解，给 $Y$ 施加正交约束： $min_{A,E,V}\sum_{i=1}^n||Y_i-\sum_{j=1}^kw_{ij}Y_j||_F^2，s.t.YY^T=I$
最后，联合以上，目标函数为： $min_{A,E,V}\sum_{i=1}^n||Y_i-\sum_{j=1}^kw_{ij}Y_j||_F^2+ \alpha ||A||_*+\beta||E||_1，s.t.X=A+E,YY^T=I$

OMF-2DPCA

假定 $A_i∈R^{m*n}(i=1,2,...,N)$ 为训练样本， $N$ 为训练样本数， $M$ 为训练样本的均值矩阵， $V=[v_1,v_2,...,v_k]∈R^{n*k}$ 为投影矩阵

2DPCA

$argmax_{V^TV=I_k}tr\sum_{i=1}^NV^T(A_i-M)^T(A_i-M)V=argmax_{V^TV=I_k}\sum_{i=1}^N||A_i^/V||_F^2$ 其中 $A_i^/=A_i-M，I_k∈R^{k*k}$ ，由于 $\sum_{i=1}^N||A_i^/-A_i^/VV^T||_F^2+\sum_{i=1}^N||A_i^/V||_F^2=\sum_{i=1}^N||A_i^/||_F^2$ ,所以上式可转换为： $argmin_{V^TV=I_k}\sum_{i=1}^N||A_i-M-(A_i-M)VV^T||_F^2$ 上式的解由协方差矩阵 $S_t=\sum_{i=1}^N(A_i-M)^T(A_i-M)$ 的前k大个特征值对应的特征向量组成。

由上式可见，大的距离方差能够显著的引导目标函数的解，所以2DPCA对异常值敏感。

2DPCA-L1

$argmax_{V^TV=I_k}\sum_{i=1}^N||(A_i-M)V||_{L_1}=argmax_{V^TV=I_k}\sum_{i=1}^N\sum_{j=1}^m||A_i^/(j,:)V||_{1}$ 其中 $_{1}$ 表示向量的1范数， $_{L_1}$ 表示矩阵的 $L_1$ 范数， $||X||_{L_1}=\sum_{i=1}^m\sum_{j=1}^n|X(i,j)|$ ，也就是先列后行。

而2DPCA-L1有以下不足

$l_1$ 范数不是旋转不变的
不清楚是否基于 $l_1$ 范数的PCA与协方差矩阵相关
由于 $\sum_{i=1}^N||A_i^/-A_i^/VV^T||_{L_1}+\sum_{i=1}^N||A_i^/V||_{L_1}≠\sum_{i=1}^N||A_i^/||_{L_1}$ ，目标函数没有明确考虑重构误差（PCA的真实目的）。