文章目录
LPP
类似于PCA,LPP也是一个非监督降维方法。PCA保留了数据的全局结构,而LPP保持数据的局部结构。
LPP的目标函数如下:
1
2
∑
i
j
n
H
i
j
∣
∣
y
i
−
y
j
∣
∣
2
2
\frac{1}{2}\sum_{ij}^nH_{ij}||y_i-y_j||_2^2
21ij∑nHij∣∣yi−yj∣∣22其中
y
i
=
p
T
x
i
y_i=p^Tx_i
yi=pTxi和
y
j
=
p
T
x
j
,
i
=
1
,
2
,
.
.
.
,
n
y_j=p^Tx_j,i=1,2,...,n
yj=pTxj,i=1,2,...,n,
H
i
j
H_{ij}
Hij是权重系数矩阵,定义如下
H
i
j
=
{
e
(
−
∣
∣
x
i
−
x
j
∣
∣
2
/
t
)
,
if
i
and
j
is connected
0
,
otherwise
H_{ij} = \begin{cases} e^{(-||x_i-x_j||^2/t}), & \text {if $i$ and $j$ is connected} \\ 0, & \text{otherwise} \end{cases}
Hij={e(−∣∣xi−xj∣∣2/t),0,if i and j is connectedotherwise
目标函数可被重写:
1
2
∑
i
j
n
H
i
j
∣
∣
y
i
−
y
j
∣
∣
2
2
=
1
2
∑
i
j
n
H
i
j
∣
∣
p
T
x
i
−
p
T
x
j
∣
∣
2
2
=
p
T
X
(
D
−
H
)
X
T
p
=
p
T
X
L
X
T
p
\frac{1}{2}\sum_{ij}^nH_{ij}||y_i-y_j||_2^2=\frac{1}{2}\sum_{ij}^nH_{ij}||p^Tx_i-p^Tx_j||_2^2=p^TX(D-H)X^Tp=p^TXLX^Tp
21ij∑nHij∣∣yi−yj∣∣22=21ij∑nHij∣∣pTxi−pTxj∣∣22=pTX(D−H)XTp=pTXLXTp其中
D
D
D是对角矩阵,它的元素是
H
H
H的行元素之和。
L
=
D
−
H
L = D-H
L=D−H
NPE
类似于LPP,NPE也是保持数据的局部领域结构,NPE的目标函数如下:
第一步NPE通过最小化局部近似误差来求得系数矩阵
W
W
W
ϕ
(
W
)
=
∑
i
∣
∣
x
i
−
∑
j
W
i
j
x
j
∣
∣
2
\phi(W )=\sum_i||x_i-\sum_jW_{ij}x_j||^2
ϕ(W)=i∑∣∣xi−j∑Wijxj∣∣2其中
x
j
x_j
xj是
x
i
x_i
xi的k近邻。
第二步通过最小化下式来求得投影矩阵
Φ
(
p
)
=
∑
i
(
p
T
x
i
−
∑
j
W
i
j
p
T
x
j
)
2
\Phi(p)=\sum_i(p^Tx_i-\sum_jW_{ij}p^Tx_j)^2
Φ(p)=i∑(pTxi−j∑WijpTxj)2其中,这里的
W
i
j
W_{ij}
Wij是第一步结束后得到的最优的。
为了优化第二步,可把上式转化为:
m
i
n
p
p
T
X
M
X
T
p
p
T
X
X
T
p
min_p\frac{p^TXMX^Tp}{p^TXX^Tp}
minppTXXTppTXMXTp其中
M
=
(
I
−
W
)
T
(
I
−
W
)
M=(I-W)^T(I-W)
M=(I−W)T(I−W)
SR
理论: 当提供一组基(或字典)时,通过字典中的很少关键字就能对信号进行重构.
给定过完被字典
X
=
[
x
1
,
x
2
,
.
.
.
,
x
n
]
∈
R
d
X=[x_1,x_2,...,x_n]∈R^d
X=[x1,x2,...,xn]∈Rd,目的是用
X
X
X中尽可能少的元素来重构
x
x
x:
m
i
n
s
∣
∣
s
∣
∣
0
,
s
.
t
.
x
=
X
s
min_s||s||_0 , s.t.x=Xs
mins∣∣s∣∣0,s.t.x=Xs就不解释了:
m
i
n
s
∣
∣
s
∣
∣
1
,
s
.
t
.
x
=
X
s
min_s||s||_1 , s.t.x=Xs
mins∣∣s∣∣1,s.t.x=Xs
SPP
LPP和NPE在降维过程中保持邻域信息,且基于LPP和NPE的权重矩阵都有一个共同的特性:稀疏。SPP关注全局信息旨在对每一个样本,基于剩余的样本的Lasso线性重构,通过改进的稀疏表示来构造邻接权重矩阵。SPP使用L1正则化来最小化目标函数,如下:
第一步:
m
i
n
s
i
∣
∣
s
i
∣
∣
1
,
s
.
t
.
x
i
=
X
s
i
,
1
=
1
T
s
i
min_{s_i}||s_i||_1,s.t.x_i=Xs_i,1=1^Ts_i
minsi∣∣si∣∣1,s.t.xi=Xsi,1=1Tsi或者表示为:
m
i
n
s
i
∣
∣
x
i
−
X
s
i
∣
∣
2
2
+
λ
∣
∣
s
i
∣
∣
1
min_{s_i}||x_i-Xs_i||_2^2+\lambda||s_i||_1
minsi∣∣xi−Xsi∣∣22+λ∣∣si∣∣1其中
s
i
=
[
s
i
1
,
.
.
.
,
s
i
,
i
−
1
,
0
,
s
i
,
i
+
1
,
.
.
.
,
s
i
n
]
T
s_i=[s_{i1},...,s_{i,i-1},0,s_{i,i+1},...,s_{in}]^T
si=[si1,...,si,i−1,0,si,i+1,...,sin]T,
1
1
1是全1列向量。
从这里可以看出SPP还解决了最近邻k的取值对图学习的影响。
第二步:
m
i
n
w
∑
i
=
1
n
∣
∣
w
T
x
i
−
w
T
X
s
i
∣
∣
2
min_w\sum_{i=1}^n||w^Tx_i-w^TXs_i||^2
minwi=1∑n∣∣wTxi−wTXsi∣∣2这里的
s
i
s_i
si是第一步后得到的最优的
s
i
s_i
si,为优化第二步,施加约束
w
T
X
X
T
w
=
1
w^TXX^Tw=1
wTXXTw=1,可把上式转为:
m
a
x
w
w
T
X
S
β
X
T
w
w
T
X
X
T
w
max_w\frac{w^TXS_{\beta}X^Tw}{w^TXX^Tw}
maxwwTXXTwwTXSβXTw其中
S
β
=
S
+
S
T
−
S
T
S
S_{\beta}=S+S^T-S^TS
Sβ=S+ST−STS。
LSPE
SPP的不足:
- SPP首先是在原始特征空间中学习稀疏重构系数矩阵S,然后寻找投影来最好的保留这个最优的S。
- LCC中说,局部性比稀疏性重要,因为局部性必然会导致稀疏性,而稀疏性并不一定会导致局部性
LSPE就是基于局部化和相似性保持嵌入的特征选择:
目标函数:
m
i
n
A
,
S
∑
i
=
1
n
∣
∣
A
T
(
x
i
−
X
s
i
)
∣
∣
2
+
1
2
β
∑
i
=
1
n
∑
j
=
1
n
∣
∣
s
i
−
s
j
∣
∣
2
W
i
,
j
+
α
∣
∣
A
∣
∣
2
,
1
min_{A,S}\sum_{i=1}^n||A^T(x_i-Xs_i)||^2+\frac{1}{2} \beta\sum_{i=1}^n\sum_{j=1}^n||s_i-s_j||^2W_{i,j}+\alpha||A||_{2,1}
minA,Si=1∑n∣∣AT(xi−Xsi)∣∣2+21βi=1∑nj=1∑n∣∣si−sj∣∣2Wi,j+α∣∣A∣∣2,1
CRP
CRP也是关注于全局,和SPP不同的是CRP旨在对每一个样本,基于剩余的样本的riged线性重构,构造L2图。CRP使用L2正则化来最小化目标函数,如下:
第一步:
m
i
n
s
i
∣
∣
x
i
−
X
s
i
∣
∣
2
2
+
λ
∣
∣
s
i
∣
∣
2
,
s
.
t
.
1
=
1
T
s
i
min_{s_i}||x_i-Xs_i||_2^2+\lambda||s_i||_2,s.t.1=1^Ts_i
minsi∣∣xi−Xsi∣∣22+λ∣∣si∣∣2,s.t.1=1Tsi其中
s
i
=
[
s
i
1
,
.
.
.
,
s
i
,
i
−
1
,
0
,
s
i
,
i
+
1
,
.
.
.
,
s
i
n
]
T
s_i=[s_{i1},...,s_{i,i-1},0,s_{i,i+1},...,s_{in}]^T
si=[si1,...,si,i−1,0,si,i+1,...,sin]T。回头看一下SPP是不是只有后面不同,一个是1,一个是2。
第二步:
m
i
n
w
∑
i
=
1
n
∣
∣
w
T
x
i
−
w
T
X
s
i
∣
∣
2
min_w\sum_{i=1}^n||w^Tx_i-w^TXs_i||^2
minwi=1∑n∣∣wTxi−wTXsi∣∣2这里的
s
i
s_i
si是第一步后得到的最优的
s
i
s_i
si,为优化第二步,施加约束
w
T
X
X
T
w
=
1
w^TXX^Tw=1
wTXXTw=1,可把上式转为:
m
a
x
w
w
T
X
S
β
X
T
w
w
T
X
X
T
w
max_w\frac{w^TXS_{\beta}X^Tw}{w^TXX^Tw}
maxwwTXXTwwTXSβXTw其中
S
β
=
S
+
S
T
−
S
T
S
S_{\beta}=S+S^T-S^TS
Sβ=S+ST−STS。
RPCA
由于在实际应用中,PCA对大噪声缺乏鲁棒性,也就是在大噪声的破坏下,PCA得到的子空间可能大大偏离底层的真子空间结构,于是RPCA出现了,,RPCA目标函数如下: m i n Y , E ∣ ∣ Y ∣ ∣ ∗ + λ ∣ ∣ E ∣ ∣ 1 min_{Y,E}||Y||_*+\lambda||E||_1 minY,E∣∣Y∣∣∗+λ∣∣E∣∣1RPCA能够很好的处理的噪声影响,前提是噪声是稀疏的,并且是只有一小部分有噪声。但是在实际应用中,数据通常是大规模损坏的,RPCA就很难产生模型来预测新数据。因为噪声 E E E通常是不稀疏的。且需要处理所有的数据。
LRR
根据RPCA,LRR出现了,LRR的主要思想是获取给定字典的样本的低秩表示,LRR问题可以描述为:
m
i
n
W
∣
∣
W
∣
∣
∗
,
s
.
t
.
X
=
A
W
min_W||W||_*,s.t.X=AW
minW∣∣W∣∣∗,s.t.X=AW其中
A
=
[
a
1
,
.
.
.
,
a
d
]
A=[a_1,...,a_d]
A=[a1,...,ad]是字典,
W
=
[
w
1
,
.
.
.
w
n
]
W=[w_1,...w_n]
W=[w1,...wn]是系数矩阵。
在实际应用中,为了提取数据的内在结构,通常采用样本矩阵作为字典,这就产生了数据的自表示特性:
m
i
n
W
∣
∣
W
∣
∣
∗
,
s
.
t
.
X
=
X
W
min_W||W||_*,s.t.X=XW
minW∣∣W∣∣∗,s.t.X=XW然而,数据常被多种噪声干扰,为增强鲁棒性,上式可改为:
m
i
n
W
∣
∣
W
∣
∣
∗
+
λ
∣
∣
E
∣
∣
l
,
s
.
t
.
X
=
X
W
+
E
min_W||W||_*+\lambda||E||_{l},s.t.X=XW+E
minW∣∣W∣∣∗+λ∣∣E∣∣l,s.t.X=XW+E其中
E
∈
R
m
∗
n
E∈R^{m*n}
E∈Rm∗n是误差矩阵。
注1:当 A A A取 I I I, l l l取1时,LRR就是RPCA
注2:《Robust subspace segmentation by low-rankrepresentation》这篇论文,取 A A A为 X X X, l l l为2,1,就是:
m i n W ∣ ∣ W ∣ ∣ ∗ + λ ∣ ∣ E ∣ ∣ 2 , 1 , s . t . X = X W + E min_W||W||_*+\lambda||E||_{2,1},s.t.X=XW+E minW∣∣W∣∣∗+λ∣∣E∣∣2,1,s.t.X=XW+E
但是类似于RPCA,LRR还是一种转变方法,不能有效处理新数据。也需要处理所有的数据。
LRPP
为了提高LPP对噪声的鲁棒性,假设噪声是稀疏的,LRPP使用数据的低秩表示来构造关系图。LRPP的目标函数如下: m i n P , W , E 1 2 ∑ i , j = 1 n ( W i j + W j i ) ∣ ∣ P T x i − P T x j ∣ ∣ 2 2 + α ∣ ∣ W ∣ ∣ ∗ + β ∣ ∣ E ∣ ∣ 2 , 1 , s . t . X = X W + E min_{P,W,E}\frac{1}{2}\sum_{i,j=1}^n(W_{ij}+W_{ji})||P^Tx_i-P^Tx_j||^2_2+\alpha||W||_*+\beta||E||_{2,1},s.t.X=XW+E minP,W,E21i,j=1∑n(Wij+Wji)∣∣PTxi−PTxj∣∣22+α∣∣W∣∣∗+β∣∣E∣∣2,1,s.t.X=XW+E
LRPE
LRPE是在LRR的基础上,使用其权重矩阵
W
W
W。
第一步: 通过LRR,获得权重矩阵
W
W
W:
m
i
n
W
∣
∣
W
∣
∣
∗
+
λ
∣
∣
E
∣
∣
2
,
1
,
s
.
t
.
X
=
X
W
+
E
,
1
T
w
i
=
1
min_W||W||_*+\lambda||E||_{2,1},s.t.X=XW+E,1^Tw_i=1
minW∣∣W∣∣∗+λ∣∣E∣∣2,1,s.t.X=XW+E,1Twi=1或者:
m
i
n
W
∣
∣
W
∣
∣
∗
+
λ
∣
∣
E
∣
∣
2
,
1
,
s
.
t
.
∣
∣
X
−
X
W
+
E
∣
∣
F
2
≤
ϵ
,
1
T
w
i
=
1
min_W||W||_*+\lambda||E||_{2,1},s.t.||X-XW+E||_F^2\leq\epsilon,1^Tw_i=1
minW∣∣W∣∣∗+λ∣∣E∣∣2,1,s.t.∣∣X−XW+E∣∣F2≤ϵ,1Twi=1其中
E
E
E是误差矩阵,
ϵ
\epsilon
ϵ是容忍的噪声误差。
第二步: 因为权重矩阵
W
W
W捕捉了原始样本的几何信息和重要的结构,希望在子空间中也能拥有同样的结构,所以:
m
i
n
p
∣
∣
Y
−
Y
W
∣
∣
F
2
,
s
.
t
.
y
i
y
i
T
=
1
,
i
=
1
,
.
.
.
d
.
min_p||Y-YW||_F^2,s.t.y_iy_i^T=1,i=1,...d.
minp∣∣Y−YW∣∣F2,s.t.yiyiT=1,i=1,...d.施加约束
y
i
y
i
T
=
1
y_iy_i^T=1
yiyiT=1来避免scaling problem,
Y
=
P
T
X
Y=P^TX
Y=PTX。
d
d
d是子空间维度。
为优化第二步,施加约束
p
i
T
X
X
T
p
=
1
p_i^TXX^Tp=1
piTXXTp=1,可把上式转为:
m
i
n
p
T
r
(
P
T
X
M
X
T
P
)
,
s
.
t
.
p
i
T
X
X
T
p
=
1
min_pTr(P^TXMX^TP),s.t.p_i^TXX^Tp=1
minpTr(PTXMXTP),s.t.piTXXTp=1其中
M
=
(
I
−
W
)
(
I
−
W
)
T
M=(I-W)(I-W)^T
M=(I−W)(I−W)T,同理可以转变为同上最大化问题。
NN_LRR
解决局部全局的问题、自表示的问题 m i n Z , E ∑ i , j n ∣ ∣ x i − x j ∣ ∣ 2 2 z i j + λ 1 ∣ ∣ Z ∣ ∣ ∗ + λ 2 ∣ ∣ E ∣ ∣ 1 min_{Z,E}\sum_{i,j}^n||x_i-x_j||_2^2z_{ij}+\lambda_1||Z||_*+\lambda_2||E||_1 minZ,Ei,j∑n∣∣xi−xj∣∣22zij+λ1∣∣Z∣∣∗+λ2∣∣E∣∣1 s . t . X = X Z + E , d i a g ( Z ) = 0 , Z ≥ 0 s.t.X=XZ+E,diag(Z)=0,Z\geq0 s.t.X=XZ+E,diag(Z)=0,Z≥0
----------------华丽的分割线------------------------
以上算法通常把矩阵图片样本转换为1维向量进行运算,这导致计算时间更长,并且可能会导致图片结构信息的丢失
LR-2DNPP
首先分析已有算法不足:
- 计算量大,2D->1D可能会导致结构信息丢失
- 几乎所有的2D算法都施加 L 2 L_2 L2范数,而平方范数对噪声敏感
- 改用 L 1 L_1 L1范数后,虽然保证了可以用较少的(同类样本)来进行表示,但是这些算法不能从噪声数据中恢复出干净的数据
所以 L R − 2 D N P P LR-2DNPP LR−2DNPP首先把数据分成编码低秩特征的部分和保证误差稀疏的误差部分,然后使用与 2 D N P P 2DNPP 2DNPP相同的方式,从干净数据中学习 N N NN NN图。
给定样本 X = [ X 1 , . . . , X n ] ∈ R a ∗ q X=[X_1,...,X_n]∈R^{a*q} X=[X1,...,Xn]∈Ra∗q,其中 X i ∈ R a ∗ b , q = b n X_i∈R^{a*b},q=bn Xi∈Ra∗b,q=bn。
首先:将2D数据分成低秩干净数据矩阵A和噪声矩阵E
m
i
n
A
,
E
r
a
n
k
(
A
)
+
λ
∣
∣
E
∣
∣
1
,
s
.
t
.
X
=
A
+
E
min_{A,E}rank(A)+\lambda||E||_1,s.t. X=A+E
minA,Erank(A)+λ∣∣E∣∣1,s.t.X=A+E其次:得到干净数据矩阵A后,使用矩阵A而不是原始矩阵X做如下操作
m
i
n
A
,
E
,
V
∑
i
=
1
n
∣
∣
Y
i
−
∑
j
=
1
k
w
i
j
Y
j
∣
∣
F
2
min_{A,E,V}\sum_{i=1}^n||Y_i-\sum_{j=1}^kw_{ij}Y_j||_F^2
minA,E,Vi=1∑n∣∣Yi−j=1∑kwijYj∣∣F2其中
Y
i
=
V
T
A
i
Y_i=V^TA_i
Yi=VTAi,
W
=
m
i
n
w
∑
i
=
1
n
∣
∣
A
i
−
∑
j
w
i
j
A
i
∣
∣
F
2
W=min_w\sum_{i=1}^n||A_i-\sum_jw_{ij}A_i||_F^2
W=minw∑i=1n∣∣Ai−∑jwijAi∣∣F2,为了避免冗余解,给
Y
Y
Y施加正交约束:
m
i
n
A
,
E
,
V
∑
i
=
1
n
∣
∣
Y
i
−
∑
j
=
1
k
w
i
j
Y
j
∣
∣
F
2
,
s
.
t
.
Y
Y
T
=
I
min_{A,E,V}\sum_{i=1}^n||Y_i-\sum_{j=1}^kw_{ij}Y_j||_F^2,s.t.YY^T=I
minA,E,Vi=1∑n∣∣Yi−j=1∑kwijYj∣∣F2,s.t.YYT=I
最后,联合以上,目标函数为:
m
i
n
A
,
E
,
V
∑
i
=
1
n
∣
∣
Y
i
−
∑
j
=
1
k
w
i
j
Y
j
∣
∣
F
2
+
α
∣
∣
A
∣
∣
∗
+
β
∣
∣
E
∣
∣
1
,
s
.
t
.
X
=
A
+
E
,
Y
Y
T
=
I
min_{A,E,V}\sum_{i=1}^n||Y_i-\sum_{j=1}^kw_{ij}Y_j||_F^2+ \alpha ||A||_*+\beta||E||_1,s.t.X=A+E,YY^T=I
minA,E,Vi=1∑n∣∣Yi−j=1∑kwijYj∣∣F2+α∣∣A∣∣∗+β∣∣E∣∣1,s.t.X=A+E,YYT=I
OMF-2DPCA
假定 A i ∈ R m ∗ n ( i = 1 , 2 , . . . , N ) A_i∈R^{m*n}(i=1,2,...,N) Ai∈Rm∗n(i=1,2,...,N)为训练样本, N N N为训练样本数, M M M为训练样本的均值矩阵, V = [ v 1 , v 2 , . . . , v k ] ∈ R n ∗ k V=[v_1,v_2,...,v_k]∈R^{n*k} V=[v1,v2,...,vk]∈Rn∗k为投影矩阵
2DPCA
a r g m a x V T V = I k t r ∑ i = 1 N V T ( A i − M ) T ( A i − M ) V = a r g m a x V T V = I k ∑ i = 1 N ∣ ∣ A i / V ∣ ∣ F 2 argmax_{V^TV=I_k}tr\sum_{i=1}^NV^T(A_i-M)^T(A_i-M)V=argmax_{V^TV=I_k}\sum_{i=1}^N||A_i^/V||_F^2 argmaxVTV=Iktri=1∑NVT(Ai−M)T(Ai−M)V=argmaxVTV=Iki=1∑N∣∣Ai/V∣∣F2其中 A i / = A i − M , I k ∈ R k ∗ k A_i^/=A_i-M,I_k∈R^{k*k} Ai/=Ai−M,Ik∈Rk∗k,由于 ∑ i = 1 N ∣ ∣ A i / − A i / V V T ∣ ∣ F 2 + ∑ i = 1 N ∣ ∣ A i / V ∣ ∣ F 2 = ∑ i = 1 N ∣ ∣ A i / ∣ ∣ F 2 \sum_{i=1}^N||A_i^/-A_i^/VV^T||_F^2+\sum_{i=1}^N||A_i^/V||_F^2=\sum_{i=1}^N||A_i^/||_F^2 ∑i=1N∣∣Ai/−Ai/VVT∣∣F2+∑i=1N∣∣Ai/V∣∣F2=∑i=1N∣∣Ai/∣∣F2,所以上式可转换为: a r g m i n V T V = I k ∑ i = 1 N ∣ ∣ A i − M − ( A i − M ) V V T ∣ ∣ F 2 argmin_{V^TV=I_k}\sum_{i=1}^N||A_i-M-(A_i-M)VV^T||_F^2 argminVTV=Iki=1∑N∣∣Ai−M−(Ai−M)VVT∣∣F2上式的解由协方差矩阵 S t = ∑ i = 1 N ( A i − M ) T ( A i − M ) S_t=\sum_{i=1}^N(A_i-M)^T(A_i-M) St=∑i=1N(Ai−M)T(Ai−M)的前k大个特征值对应的特征向量组成。
由上式可见,大的距离方差能够显著的引导目标函数的解,所以2DPCA对异常值敏感。
2DPCA-L1
a r g m a x V T V = I k ∑ i = 1 N ∣ ∣ ( A i − M ) V ∣ ∣ L 1 = a r g m a x V T V = I k ∑ i = 1 N ∑ j = 1 m ∣ ∣ A i / ( j , : ) V ∣ ∣ 1 argmax_{V^TV=I_k}\sum_{i=1}^N||(A_i-M)V||_{L_1}=argmax_{V^TV=I_k}\sum_{i=1}^N\sum_{j=1}^m||A_i^/(j,:)V||_{1} argmaxVTV=Iki=1∑N∣∣(Ai−M)V∣∣L1=argmaxVTV=Iki=1∑Nj=1∑m∣∣Ai/(j,:)V∣∣1其中 ∣ ∣ ⋅ ∣ ∣ 1 ||·||_{1} ∣∣⋅∣∣1表示向量的1范数, ∣ ∣ ⋅ ∣ ∣ L 1 ||·||_{L_1} ∣∣⋅∣∣L1表示矩阵的 L 1 L_1 L1范数, ∣ ∣ X ∣ ∣ L 1 = ∑ i = 1 m ∑ j = 1 n ∣ X ( i , j ) ∣ ||X||_{L_1}=\sum_{i=1}^m\sum_{j=1}^n|X(i,j)| ∣∣X∣∣L1=∑i=1m∑j=1n∣X(i,j)∣,也就是先列后行。
而2DPCA-L1有以下不足
- l 1 l_1 l1范数不是旋转不变的
- 不清楚是否基于 l 1 l_1 l1范数的PCA与协方差矩阵相关
- 由于 ∑ i = 1 N ∣ ∣ A i / − A i / V V T ∣ ∣ L 1 + ∑ i = 1 N ∣ ∣ A i / V ∣ ∣ L 1 ≠ ∑ i = 1 N ∣ ∣ A i / ∣ ∣ L 1 \sum_{i=1}^N||A_i^/-A_i^/VV^T||_{L_1}+\sum_{i=1}^N||A_i^/V||_{L_1}≠\sum_{i=1}^N||A_i^/||_{L_1} ∑i=1N∣∣Ai/−Ai/VVT∣∣L1+∑i=1N∣∣Ai/V∣∣L1=∑i=1N∣∣Ai/∣∣L1,目标函数没有明确考虑重构误差(PCA的真实目的)。
所以提出了OMF-2DPCA
OMF-2DPCA
a r g m i n V T V = I k ∑ i = 1 N ∣ ∣ A i − M − ( A i − M ) V V T ∣ ∣ F argmin_{V^TV=I_k}\sum_{i=1}^N||A_i-M-(A_i-M)VV^T||_F argminVTV=Iki=1∑N∣∣Ai−M−(Ai−M)VVT∣∣F