【机器学习】LPP\NPE\SR\SPP\CRP\RPCA\LRR\LRPP\LRPE\ LR-2DNPP\OMF-2DPCA等

LPP

类似于PCA,LPP也是一个非监督降维方法。PCA保留了数据的全局结构,而LPP保持数据的局部结构
LPP的目标函数如下: 1 2 ∑ i j n H i j ∣ ∣ y i − y j ∣ ∣ 2 2 \frac{1}{2}\sum_{ij}^nH_{ij}||y_i-y_j||_2^2 21ijnHijyiyj22其中 y i = p T x i y_i=p^Tx_i yi=pTxi y j = p T x j , i = 1 , 2 , . . . , n y_j=p^Tx_j,i=1,2,...,n yj=pTxj,i=1,2,...,n H i j H_{ij} Hij是权重系数矩阵,定义如下
H i j = { e ( − ∣ ∣ x i − x j ∣ ∣ 2 / t ) , if  i  and  j  is connected 0 , otherwise H_{ij} = \begin{cases} e^{(-||x_i-x_j||^2/t}), & \text {if $i$ and $j$ is connected} \\ 0, & \text{otherwise} \end{cases} Hij={e(xixj2/t),0,if i and j is connectedotherwise
目标函数可被重写: 1 2 ∑ i j n H i j ∣ ∣ y i − y j ∣ ∣ 2 2 = 1 2 ∑ i j n H i j ∣ ∣ p T x i − p T x j ∣ ∣ 2 2 = p T X ( D − H ) X T p = p T X L X T p \frac{1}{2}\sum_{ij}^nH_{ij}||y_i-y_j||_2^2=\frac{1}{2}\sum_{ij}^nH_{ij}||p^Tx_i-p^Tx_j||_2^2=p^TX(D-H)X^Tp=p^TXLX^Tp 21ijnHijyiyj22=21ijnHijpTxipTxj22=pTX(DH)XTp=pTXLXTp其中 D D D是对角矩阵,它的元素是 H H H的行元素之和。 L = D − H L = D-H L=DH

NPE

类似于LPP,NPE也是保持数据的局部领域结构,NPE的目标函数如下:
第一步NPE通过最小化局部近似误差来求得系数矩阵 W W W
ϕ ( W ) = ∑ i ∣ ∣ x i − ∑ j W i j x j ∣ ∣ 2 \phi(W )=\sum_i||x_i-\sum_jW_{ij}x_j||^2 ϕ(W)=ixijWijxj2其中 x j x_j xj x i x_i xi的k近邻。
第二步通过最小化下式来求得投影矩阵 Φ ( p ) = ∑ i ( p T x i − ∑ j W i j p T x j ) 2 \Phi(p)=\sum_i(p^Tx_i-\sum_jW_{ij}p^Tx_j)^2 Φ(p)=i(pTxijWijpTxj)2其中,这里的 W i j W_{ij} Wij是第一步结束后得到的最优的。
为了优化第二步,可把上式转化为: m i n p p T X M X T p p T X X T p min_p\frac{p^TXMX^Tp}{p^TXX^Tp} minppTXXTppTXMXTp其中 M = ( I − W ) T ( I − W ) M=(I-W)^T(I-W) M=(IW)T(IW)

SR

理论: 当提供一组基(或字典)时,通过字典中的很少关键字就能对信号进行重构.
给定过完被字典 X = [ x 1 , x 2 , . . . , x n ] ∈ R d X=[x_1,x_2,...,x_n]∈R^d X=[x1,x2,...,xn]Rd,目的是用 X X X中尽可能少的元素来重构 x x x
m i n s ∣ ∣ s ∣ ∣ 0 , s . t . x = X s min_s||s||_0 , s.t.x=Xs minss0,s.t.x=Xs就不解释了:
m i n s ∣ ∣ s ∣ ∣ 1 , s . t . x = X s min_s||s||_1 , s.t.x=Xs minss1,s.t.x=Xs

SPP

LPP和NPE在降维过程中保持邻域信息,且基于LPP和NPE的权重矩阵都有一个共同的特性:稀疏。SPP关注全局信息旨在对每一个样本,基于剩余的样本的Lasso线性重构,通过改进的稀疏表示来构造邻接权重矩阵。SPP使用L1正则化来最小化目标函数,如下:
第一步: m i n s i ∣ ∣ s i ∣ ∣ 1 , s . t . x i = X s i , 1 = 1 T s i min_{s_i}||s_i||_1,s.t.x_i=Xs_i,1=1^Ts_i minsisi1,s.t.xi=Xsi,1=1Tsi或者表示为: m i n s i ∣ ∣ x i − X s i ∣ ∣ 2 2 + λ ∣ ∣ s i ∣ ∣ 1 min_{s_i}||x_i-Xs_i||_2^2+\lambda||s_i||_1 minsixiXsi22+λsi1其中 s i = [ s i 1 , . . . , s i , i − 1 , 0 , s i , i + 1 , . . . , s i n ] T s_i=[s_{i1},...,s_{i,i-1},0,s_{i,i+1},...,s_{in}]^T si=[si1,...,si,i1,0,si,i+1,...,sin]T 1 1 1是全1列向量。
从这里可以看出SPP还解决了最近邻k的取值对图学习的影响。
第二步: m i n w ∑ i = 1 n ∣ ∣ w T x i − w T X s i ∣ ∣ 2 min_w\sum_{i=1}^n||w^Tx_i-w^TXs_i||^2 minwi=1nwTxiwTXsi2这里的 s i s_i si是第一步后得到的最优的 s i s_i si,为优化第二步,施加约束 w T X X T w = 1 w^TXX^Tw=1 wTXXTw=1,可把上式转为:
m a x w w T X S β X T w w T X X T w max_w\frac{w^TXS_{\beta}X^Tw}{w^TXX^Tw} maxwwTXXTwwTXSβXTw其中 S β = S + S T − S T S S_{\beta}=S+S^T-S^TS Sβ=S+STSTS

LSPE

SPP的不足:

  • SPP首先是在原始特征空间中学习稀疏重构系数矩阵S,然后寻找投影来最好的保留这个最优的S。
  • LCC中说,局部性比稀疏性重要,因为局部性必然会导致稀疏性,而稀疏性并不一定会导致局部性

LSPE就是基于局部化和相似性保持嵌入的特征选择:
目标函数:
m i n A , S ∑ i = 1 n ∣ ∣ A T ( x i − X s i ) ∣ ∣ 2 + 1 2 β ∑ i = 1 n ∑ j = 1 n ∣ ∣ s i − s j ∣ ∣ 2 W i , j + α ∣ ∣ A ∣ ∣ 2 , 1 min_{A,S}\sum_{i=1}^n||A^T(x_i-Xs_i)||^2+\frac{1}{2} \beta\sum_{i=1}^n\sum_{j=1}^n||s_i-s_j||^2W_{i,j}+\alpha||A||_{2,1} minA,Si=1nAT(xiXsi)2+21βi=1nj=1nsisj2Wi,j+αA2,1

CRP

CRP也是关注于全局,和SPP不同的是CRP旨在对每一个样本,基于剩余的样本的riged线性重构,构造L2图。CRP使用L2正则化来最小化目标函数,如下:
第一步: m i n s i ∣ ∣ x i − X s i ∣ ∣ 2 2 + λ ∣ ∣ s i ∣ ∣ 2 , s . t . 1 = 1 T s i min_{s_i}||x_i-Xs_i||_2^2+\lambda||s_i||_2,s.t.1=1^Ts_i minsixiXsi22+λsi2s.t.1=1Tsi其中 s i = [ s i 1 , . . . , s i , i − 1 , 0 , s i , i + 1 , . . . , s i n ] T s_i=[s_{i1},...,s_{i,i-1},0,s_{i,i+1},...,s_{in}]^T si=[si1,...,si,i1,0,si,i+1,...,sin]T。回头看一下SPP是不是只有后面不同,一个是1,一个是2。
第二步: m i n w ∑ i = 1 n ∣ ∣ w T x i − w T X s i ∣ ∣ 2 min_w\sum_{i=1}^n||w^Tx_i-w^TXs_i||^2 minwi=1nwTxiwTXsi2这里的 s i s_i si是第一步后得到的最优的 s i s_i si,为优化第二步,施加约束 w T X X T w = 1 w^TXX^Tw=1 wTXXTw=1,可把上式转为: m a x w w T X S β X T w w T X X T w max_w\frac{w^TXS_{\beta}X^Tw}{w^TXX^Tw} maxwwTXXTwwTXSβXTw其中 S β = S + S T − S T S S_{\beta}=S+S^T-S^TS Sβ=S+STSTS

RPCA

由于在实际应用中,PCA对大噪声缺乏鲁棒性,也就是在大噪声的破坏下,PCA得到的子空间可能大大偏离底层的真子空间结构,于是RPCA出现了,,RPCA目标函数如下: m i n Y , E ∣ ∣ Y ∣ ∣ ∗ + λ ∣ ∣ E ∣ ∣ 1 min_{Y,E}||Y||_*+\lambda||E||_1 minY,EY+λE1RPCA能够很好的处理的噪声影响,前提是噪声是稀疏的,并且是只有一小部分有噪声。但是在实际应用中,数据通常是大规模损坏的,RPCA就很难产生模型来预测新数据。因为噪声 E E E通常是不稀疏的。且需要处理所有的数据。

LRR

根据RPCA,LRR出现了,LRR的主要思想是获取给定字典的样本的低秩表示,LRR问题可以描述为: m i n W ∣ ∣ W ∣ ∣ ∗ , s . t . X = A W min_W||W||_*,s.t.X=AW minWW,s.t.X=AW其中 A = [ a 1 , . . . , a d ] A=[a_1,...,a_d] A=[a1,...,ad]是字典, W = [ w 1 , . . . w n ] W=[w_1,...w_n] W=[w1,...wn]是系数矩阵。
在实际应用中,为了提取数据的内在结构,通常采用样本矩阵作为字典,这就产生了数据的自表示特性: m i n W ∣ ∣ W ∣ ∣ ∗ , s . t . X = X W min_W||W||_*,s.t.X=XW minWW,s.t.X=XW然而,数据常被多种噪声干扰,为增强鲁棒性,上式可改为: m i n W ∣ ∣ W ∣ ∣ ∗ + λ ∣ ∣ E ∣ ∣ l , s . t . X = X W + E min_W||W||_*+\lambda||E||_{l},s.t.X=XW+E minWW+λEl,s.t.X=XW+E其中 E ∈ R m ∗ n E∈R^{m*n} ERmn是误差矩阵。

注1:当 A A A I I I, l l l取1时,LRR就是RPCA
注2:《Robust subspace segmentation by low-rankrepresentation》这篇论文,取 A A A X X X, l l l为2,1,就是:
m i n W ∣ ∣ W ∣ ∣ ∗ + λ ∣ ∣ E ∣ ∣ 2 , 1 , s . t . X = X W + E min_W||W||_*+\lambda||E||_{2,1},s.t.X=XW+E minWW+λE2,1,s.t.X=XW+E

但是类似于RPCA,LRR还是一种转变方法,不能有效处理新数据。也需要处理所有的数据。

LRPP

为了提高LPP对噪声的鲁棒性,假设噪声是稀疏的,LRPP使用数据的低秩表示来构造关系图。LRPP的目标函数如下: m i n P , W , E 1 2 ∑ i , j = 1 n ( W i j + W j i ) ∣ ∣ P T x i − P T x j ∣ ∣ 2 2 + α ∣ ∣ W ∣ ∣ ∗ + β ∣ ∣ E ∣ ∣ 2 , 1 , s . t . X = X W + E min_{P,W,E}\frac{1}{2}\sum_{i,j=1}^n(W_{ij}+W_{ji})||P^Tx_i-P^Tx_j||^2_2+\alpha||W||_*+\beta||E||_{2,1},s.t.X=XW+E minP,W,E21i,j=1n(Wij+Wji)PTxiPTxj22+αW+βE2,1s.t.X=XW+E

LRPE

LRPE是在LRR的基础上,使用其权重矩阵 W W W
第一步: 通过LRR,获得权重矩阵 W W W
m i n W ∣ ∣ W ∣ ∣ ∗ + λ ∣ ∣ E ∣ ∣ 2 , 1 , s . t . X = X W + E , 1 T w i = 1 min_W||W||_*+\lambda||E||_{2,1},s.t.X=XW+E,1^Tw_i=1 minWW+λE2,1,s.t.X=XW+E1Twi=1或者: m i n W ∣ ∣ W ∣ ∣ ∗ + λ ∣ ∣ E ∣ ∣ 2 , 1 , s . t . ∣ ∣ X − X W + E ∣ ∣ F 2 ≤ ϵ , 1 T w i = 1 min_W||W||_*+\lambda||E||_{2,1},s.t.||X-XW+E||_F^2\leq\epsilon,1^Tw_i=1 minWW+λE2,1,s.t.XXW+EF2ϵ1Twi=1其中 E E E是误差矩阵, ϵ \epsilon ϵ是容忍的噪声误差。
第二步: 因为权重矩阵 W W W捕捉了原始样本的几何信息和重要的结构,希望在子空间中也能拥有同样的结构,所以: m i n p ∣ ∣ Y − Y W ∣ ∣ F 2 , s . t . y i y i T = 1 , i = 1 , . . . d . min_p||Y-YW||_F^2,s.t.y_iy_i^T=1,i=1,...d. minpYYWF2,s.t.yiyiT=1,i=1,...d.施加约束 y i y i T = 1 y_iy_i^T=1 yiyiT=1来避免scaling problem, Y = P T X Y=P^TX Y=PTX d d d是子空间维度。
为优化第二步,施加约束 p i T X X T p = 1 p_i^TXX^Tp=1 piTXXTp=1,可把上式转为: m i n p T r ( P T X M X T P ) , s . t . p i T X X T p = 1 min_pTr(P^TXMX^TP),s.t.p_i^TXX^Tp=1 minpTr(PTXMXTP),s.t.piTXXTp=1其中 M = ( I − W ) ( I − W ) T M=(I-W)(I-W)^T M=(IW)(IW)T,同理可以转变为同上最大化问题。

NN_LRR

解决局部全局的问题、自表示的问题 m i n Z , E ∑ i , j n ∣ ∣ x i − x j ∣ ∣ 2 2 z i j + λ 1 ∣ ∣ Z ∣ ∣ ∗ + λ 2 ∣ ∣ E ∣ ∣ 1 min_{Z,E}\sum_{i,j}^n||x_i-x_j||_2^2z_{ij}+\lambda_1||Z||_*+\lambda_2||E||_1 minZ,Ei,jnxixj22zij+λ1Z+λ2E1 s . t . X = X Z + E , d i a g ( Z ) = 0 , Z ≥ 0 s.t.X=XZ+E,diag(Z)=0,Z\geq0 s.t.X=XZ+E,diag(Z)=0,Z0

----------------华丽的分割线------------------------

以上算法通常把矩阵图片样本转换为1维向量进行运算,这导致计算时间更长,并且可能会导致图片结构信息的丢失

LR-2DNPP

首先分析已有算法不足:

  1. 计算量大,2D->1D可能会导致结构信息丢失
  2. 几乎所有的2D算法都施加 L 2 L_2 L2范数,而平方范数对噪声敏感
  3. 改用 L 1 L_1 L1范数后,虽然保证了可以用较少的(同类样本)来进行表示,但是这些算法不能从噪声数据中恢复出干净的数据

所以 L R − 2 D N P P LR-2DNPP LR2DNPP首先把数据分成编码低秩特征的部分和保证误差稀疏的误差部分,然后使用与 2 D N P P 2DNPP 2DNPP相同的方式,从干净数据中学习 N N NN NN图。

给定样本 X = [ X 1 , . . . , X n ] ∈ R a ∗ q X=[X_1,...,X_n]∈R^{a*q} X=[X1,...,Xn]Raq,其中 X i ∈ R a ∗ b , q = b n X_i∈R^{a*b},q=bn XiRab,q=bn

首先:将2D数据分成低秩干净数据矩阵A和噪声矩阵E m i n A , E r a n k ( A ) + λ ∣ ∣ E ∣ ∣ 1 , s . t . X = A + E min_{A,E}rank(A)+\lambda||E||_1,s.t. X=A+E minA,Erank(A)+λE1s.t.X=A+E其次:得到干净数据矩阵A后,使用矩阵A而不是原始矩阵X做如下操作 m i n A , E , V ∑ i = 1 n ∣ ∣ Y i − ∑ j = 1 k w i j Y j ∣ ∣ F 2 min_{A,E,V}\sum_{i=1}^n||Y_i-\sum_{j=1}^kw_{ij}Y_j||_F^2 minA,E,Vi=1nYij=1kwijYjF2其中 Y i = V T A i Y_i=V^TA_i Yi=VTAi W = m i n w ∑ i = 1 n ∣ ∣ A i − ∑ j w i j A i ∣ ∣ F 2 W=min_w\sum_{i=1}^n||A_i-\sum_jw_{ij}A_i||_F^2 W=minwi=1nAijwijAiF2,为了避免冗余解,给 Y Y Y施加正交约束: m i n A , E , V ∑ i = 1 n ∣ ∣ Y i − ∑ j = 1 k w i j Y j ∣ ∣ F 2 , s . t . Y Y T = I min_{A,E,V}\sum_{i=1}^n||Y_i-\sum_{j=1}^kw_{ij}Y_j||_F^2,s.t.YY^T=I minA,E,Vi=1nYij=1kwijYjF2s.t.YYT=I
最后,联合以上,目标函数为: m i n A , E , V ∑ i = 1 n ∣ ∣ Y i − ∑ j = 1 k w i j Y j ∣ ∣ F 2 + α ∣ ∣ A ∣ ∣ ∗ + β ∣ ∣ E ∣ ∣ 1 , s . t . X = A + E , Y Y T = I min_{A,E,V}\sum_{i=1}^n||Y_i-\sum_{j=1}^kw_{ij}Y_j||_F^2+ \alpha ||A||_*+\beta||E||_1,s.t.X=A+E,YY^T=I minA,E,Vi=1nYij=1kwijYjF2+αA+βE1s.t.X=A+E,YYT=I

OMF-2DPCA

假定 A i ∈ R m ∗ n ( i = 1 , 2 , . . . , N ) A_i∈R^{m*n}(i=1,2,...,N) AiRmn(i=1,2,...,N)为训练样本, N N N为训练样本数, M M M为训练样本的均值矩阵, V = [ v 1 , v 2 , . . . , v k ] ∈ R n ∗ k V=[v_1,v_2,...,v_k]∈R^{n*k} V=[v1,v2,...,vk]Rnk为投影矩阵

2DPCA

a r g m a x V T V = I k t r ∑ i = 1 N V T ( A i − M ) T ( A i − M ) V = a r g m a x V T V = I k ∑ i = 1 N ∣ ∣ A i / V ∣ ∣ F 2 argmax_{V^TV=I_k}tr\sum_{i=1}^NV^T(A_i-M)^T(A_i-M)V=argmax_{V^TV=I_k}\sum_{i=1}^N||A_i^/V||_F^2 argmaxVTV=Iktri=1NVT(AiM)T(AiM)V=argmaxVTV=Iki=1NAi/VF2其中 A i / = A i − M , I k ∈ R k ∗ k A_i^/=A_i-M,I_k∈R^{k*k} Ai/=AiMIkRkk,由于 ∑ i = 1 N ∣ ∣ A i / − A i / V V T ∣ ∣ F 2 + ∑ i = 1 N ∣ ∣ A i / V ∣ ∣ F 2 = ∑ i = 1 N ∣ ∣ A i / ∣ ∣ F 2 \sum_{i=1}^N||A_i^/-A_i^/VV^T||_F^2+\sum_{i=1}^N||A_i^/V||_F^2=\sum_{i=1}^N||A_i^/||_F^2 i=1NAi/Ai/VVTF2+i=1NAi/VF2=i=1NAi/F2,所以上式可转换为: a r g m i n V T V = I k ∑ i = 1 N ∣ ∣ A i − M − ( A i − M ) V V T ∣ ∣ F 2 argmin_{V^TV=I_k}\sum_{i=1}^N||A_i-M-(A_i-M)VV^T||_F^2 argminVTV=Iki=1NAiM(AiM)VVTF2上式的解由协方差矩阵 S t = ∑ i = 1 N ( A i − M ) T ( A i − M ) S_t=\sum_{i=1}^N(A_i-M)^T(A_i-M) St=i=1N(AiM)T(AiM)的前k大个特征值对应的特征向量组成。

由上式可见,大的距离方差能够显著的引导目标函数的解,所以2DPCA对异常值敏感。

2DPCA-L1

a r g m a x V T V = I k ∑ i = 1 N ∣ ∣ ( A i − M ) V ∣ ∣ L 1 = a r g m a x V T V = I k ∑ i = 1 N ∑ j = 1 m ∣ ∣ A i / ( j , : ) V ∣ ∣ 1 argmax_{V^TV=I_k}\sum_{i=1}^N||(A_i-M)V||_{L_1}=argmax_{V^TV=I_k}\sum_{i=1}^N\sum_{j=1}^m||A_i^/(j,:)V||_{1} argmaxVTV=Iki=1N(AiM)VL1=argmaxVTV=Iki=1Nj=1mAi/(j,:)V1其中 ∣ ∣ ⋅ ∣ ∣ 1 ||·||_{1} 1表示向量的1范数, ∣ ∣ ⋅ ∣ ∣ L 1 ||·||_{L_1} L1表示矩阵的 L 1 L_1 L1范数, ∣ ∣ X ∣ ∣ L 1 = ∑ i = 1 m ∑ j = 1 n ∣ X ( i , j ) ∣ ||X||_{L_1}=\sum_{i=1}^m\sum_{j=1}^n|X(i,j)| XL1=i=1mj=1nX(i,j),也就是先列后行。

而2DPCA-L1有以下不足

  1. l 1 l_1 l1范数不是旋转不变的
  2. 不清楚是否基于 l 1 l_1 l1范数的PCA与协方差矩阵相关
  3. 由于 ∑ i = 1 N ∣ ∣ A i / − A i / V V T ∣ ∣ L 1 + ∑ i = 1 N ∣ ∣ A i / V ∣ ∣ L 1 ≠ ∑ i = 1 N ∣ ∣ A i / ∣ ∣ L 1 \sum_{i=1}^N||A_i^/-A_i^/VV^T||_{L_1}+\sum_{i=1}^N||A_i^/V||_{L_1}≠\sum_{i=1}^N||A_i^/||_{L_1} i=1NAi/Ai/VVTL1+i=1NAi/VL1=i=1NAi/L1,目标函数没有明确考虑重构误差(PCA的真实目的)。

所以提出了OMF-2DPCA

OMF-2DPCA

a r g m i n V T V = I k ∑ i = 1 N ∣ ∣ A i − M − ( A i − M ) V V T ∣ ∣ F argmin_{V^TV=I_k}\sum_{i=1}^N||A_i-M-(A_i-M)VV^T||_F argminVTV=Iki=1NAiM(AiM)VVTF

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值