-
待解决问题
特征表示需求
(1)需要最合适的特征表示来定义数据的内在结构
(2)需要使用合适的数据内在结构来进行特征提取。 -
创新点
提出了一种统一的学习框架orthogonal self-guided similarity preserving projection(OSSPP)正交自导相似性保留投影方法,同时获得数据的最优特征表示和内在结构。其中,数据的相似结构信息由投影数据的重构系数编码,同时要求投影数据通过保留相似度正则项来遵循相似结构。 -
框架
P是投影矩阵,将源数据投影到低维子空间去学习重构系数矩阵Z,同时Z也给反馈P,最后用P和W去实现降维和子空间聚类。
-
RELATED WORK
本文模型基于LS3C(latent space sparse subspace clustering).
每个X中的样例可以被最多 d l d_l dl个样本线性表示。
(1) x i = X z i , z i i = 0 , ∥ z i ∥ 0 ≤ d ℓ x_{i}=X z_{i}, \quad z_{i i}=0, \quad\left\|z_{i}\right\|_{0} \leq d_{\ell} \tag{1} xi=Xzi,zii=0,∥zi∥0≤dℓ(1)
其中 z i z_i zi是重构系数向量。将(1)改写为矩阵形式:
(2) min ∥ Z ∥ 1 , s . t . X = X Z , diag ( Z ) = 0 \min \|Z\|_{1}, \quad s.t. X=X Z, \quad \operatorname{diag}(Z)=0 \tag{2} min∥Z∥1,s.t.X=XZ,diag(Z)=0(2)
其中
∥
Z
∥
1
=
∑
i
=
1
n
∑
j
=
1
n
∣
Z
i
j
∣
\|Z\|_{1}=\sum_{i=1}^{n} \sum_{j=1}^{n}\left|Z_{i j}\right|
∥Z∥1=∑i=1n∑j=1n∣Zij∣,用1范数表示重构系数矩阵Z。
加噪声E,
X
=
X
Z
+
E
X=X Z+E
X=XZ+E:
(3) min Z ∥ Z ∥ 1 + γ ∥ X − X Z ∥ F 2 , s . t . d i a g ( Z ) = 0 \min _{Z}\|Z\|_{1}+\gamma\|X-X Z\|_{F}^{2}, \quad s.t. diag (Z)=0 \tag{3} Zmin∥Z∥1+γ∥X−XZ∥F2,s.t.diag(Z)=0(3)
LS3C将样本嵌入低维空间,发现空间中的稀疏编码。
用投影矩阵P将训练样本从源高维特征空间投影到t维潜在输出空间。通过最小化以下损失方程实现:
(4) [ P ∗ , Z ∗ ] = min P , Z J ( P , Z , X ) s.t. P P T = I , diag ( Z ) = 0 \begin{aligned}\left[P^{*}, Z^{*}\right] &=\min _{P, Z}J(P, Z, X) \\ \text { s.t. } P P^{T} &=I, \quad \operatorname{diag}(Z)=0 \end{aligned} \tag{4} [P∗,Z∗] s.t. PPT=P,ZminJ(P,Z,X)=I,diag(Z)=0(4)
其中:
J ( P , Z , X ) = ∥ Z ∥ 1 + γ 1 ∥ P X − P X Z ∥ F 2 + γ 2 ∥ X − P T P X ∥ F 2 J(P, Z, X)=\|Z\|_{1}+\gamma_{1}\|P X-P X Z\|_{F}^{2}+\gamma_{2}\left\|X-P^{T} P X\right\|_{F}^{2} J(P,Z,X)=∥Z∥1+γ1∥PX−PXZ∥F2+γ2∥∥X−PTPX∥∥F2
前两项确保数据在低维空间的稀疏性和重构性,最后一项是正则化项,确保投影保持主要数据能量。
增加一个仿射约束:
(5) [ P ∗ , Z ∗ ] = min P , C J ( P , Z , X ) s . t . P P T = I , Z T 1 = 1 , diag ( Z ) = 0 \left[P^{*}, Z^{*}\right]=\min _{P, C}J(P, Z, X)\\ s.t. P P^{T}=I, \quad Z^{T} 1=1, \quad \operatorname{diag}(Z)=0 \tag{5} [P∗,Z∗]=P,CminJ(P,Z,X)s.t.PPT=I,ZT1=1,diag(Z)=0(5)
处理位于仿射单元的数据。
上述模型保留了稀疏结构,失去了相似结构。
-
OSSPP
-
主要思想:使用投影数据的重构系数对相似结构信息编码,且在降维过程中遵循相似结构。其投影矩阵P和重构系数矩阵Z迭代更新。
若Z可获得相似性,则任意两个投影点 P T x i 、 P T x j P^{T} x_{i} \text 、 P^{T} x_{j} PTxi、PTxj在数据分布的固有几何形状上接近,都具有较大的权值 Z i j Z_{ij} Zij。
OSSPP目标函数:
(6) [ P ∗ , Z ∗ ] = min P , Z F ( P , Z ) s . t . P T P = I , diag ( Z ) = 0 , Z ≥ 0 , ∀ i \left[P^{*}, Z^{*}\right]=\min _{P, Z} F(P, Z)\\ s.t. P^{T} P=I, \operatorname{diag}(Z)=0, \quad Z \geq 0, \forall i \tag{6} [P∗,Z∗]=P,ZminF(P,Z)s.t.PTP=I,diag(Z)=0,Z≥0,∀i(6)其中:
F ( P , Z ) = ∥ P T X − P T X Z ∥ F 2 + α ∥ X − P P T X ∥ F 2 + β ∑ i = 1 n ∑ j = 1 n ∥ P T x i − P T x j ∥ 2 Z i j F(P, Z)=\left\|P^{T} X-P^{T} X Z\right\|_{F}^{2}+\alpha\left\|X-P P^{T} X\right\|_{F}^{2} +\beta \sum_{i=1}^{n} \sum_{j=1}^{n}\left\|P^{T} x_{i}-P^{T} x_{j}\right\|^{2} Z_{i j} F(P,Z)=∥∥PTX−PTXZ∥∥F2+α∥∥X−PPTX∥∥F2+βi=1∑nj=1∑n∥∥PTxi−PTxj∥∥2Zij重构系数矩阵Z是非负的,可以用作图权重。相比于LS3C去掉了对Z的仿射约束,以更好地抓取数据的相似结构。新增的最后一项是保留相似性的正则化项(普通正则化项*重构系数),目的使投影数据在降维过程遵循相似结构。
-
-
优化
分两步:
- 固定Z求P
- 固定P求Z
- 固定Z求P
固定Z后,(6)可被写为:
(7) P ∗ = arg min P ∥ P T X − P T X Z ∥ F 2 + α ∥ X − P P T X ∥ F 2 + β Tr ( P T X L X T P ) s.t. P T P = I \begin{aligned} P^{*}=& \arg \min _{P}\left\|P^{T} X-P^{T} X Z\right\|_{F}^{2} \\ &+\alpha\left\|X-P P^{T} X\right\|_{F}^{2}+\beta \operatorname{Tr}\left(P^{T} X L X^{T} P\right) \\ \text { s.t. } P^{T} P=I & \end{aligned} \tag{7} P∗= s.t. PTP=IargPmin∥∥PTX−PTXZ∥∥F2+α∥∥X−PPTX∥∥F2+βTr(PTXLXTP)(7)
其中L=D-Z是图拉普拉斯矩阵。D是 D j j = ∑ k Z j k D_{j j}=\sum_{k} Z_{j k} Djj=∑kZjk的对角阵。考虑约束$ P^{T} P=I , 有 ( ,有( ,有(\left|A\right|_{F}{2}=Tr(ATA)$):
(8) P ∗ = arg min P Tr ( P T ( X − X Z ) ( X − X Z ) T P ) + α Tr ( X T X − P T X X T P ) + β Tr ( P T X L X T P ) \begin{aligned} P^{*}=& \arg \min _{P} \operatorname{Tr}\left(P^{T}(X-X Z)(X-X Z)^{T} P\right) \\ &+\alpha \operatorname{Tr}\left(X^{T} X-P^{T} X X^{T} P\right)+\beta \operatorname{Tr}\left(P^{T} X L X^{T} P\right) \end{aligned} \tag{8} P∗=argPminTr(PT(X−XZ)(X−XZ)TP)+αTr(XTX−PTXXTP)+βTr(PTXLXTP)(8)
使 ( X − X Z ) ( X − X Z ) T = M (X-X Z)(X-X Z)^{T}=M (X−XZ)(X−XZ)T=M,可得:
(9) P ∗ = arg min P Tr ( P T ( M − α X X T + β X L X T ) P ) s . t . P T P = I P^{*}=\arg \min _{P} \operatorname{Tr}\left(P^{T}\left(M-\alpha X X^{T}+\beta X L X^{T}\right) P\right)\\ s.t. P^{T} P=I \tag{9} P∗=argPminTr(PT(M−αXXT+βXLXT)P)s.t.PTP=I(9)
则转化为求解最小特征值问题:
(10) ( M − α X X T + β X L X T ) p i = λ p i \left(M-\alpha X X^{T}+\beta X L X^{T}\right) p_{i}=\lambda p_{i} \tag{10} (M−αXXT+βXLXT)pi=λpi(10)
- 固定P求Z
固定P后,(6)可被写为:
(11) min Z ∥ P T X − P T X Z ∥ F 2 + β ∑ i = 1 n ∑ j = 1 n ∥ P T x i − P T x j ∥ 2 Z i j s . t . diag ( Z ) = 0 , Z ≥ 0 \min _{Z}\left\|P^{T} X-P^{T} X Z\right\|_{F}^{2}+\beta \sum_{i=1}^{n} \sum_{j=1}^{n}\left\|P^{T} x_{i}-P^{T} x_{j}\right\|^{2} Z_{i j}\\ s.t. \operatorname{diag}(Z)=0, \quad Z \geq 0 \tag{11} Zmin∥∥PTX−PTXZ∥∥F2+βi=1∑nj=1∑n∥∥PTxi−PTxj∥∥2Zijs.t.diag(Z)=0,Z≥0(11)
令 H = P T X = [ h 1 , … , h n ] ∈ ℜ d × n H=P^{T} X=\left[h_{1}, \ldots, h_{n}\right] \in \Re^{d \times n} H=PTX=[h1,…,hn]∈ℜd×n, R i j = ∥ P T x i − P T x j ∥ 2 ( R = [ r 1 , … , r n ] ∈ ℜ n × n ) R_{i j}=\left\|P^{T} x_{i}-P^{T} x_{j}\right\|^{2}(R=\left[r_{1}, \ldots, r_{n}\right] \in \Re^{n \times n} ) Rij=∥∥PTxi−PTxj∥∥2(R=[r1,…,rn]∈ℜn×n), Θ ∈ ℜ n × n \Theta \in \Re^{n \times n} Θ∈ℜn×n是 一个全1矩阵。 ⊙ \odot ⊙是Hadamard变换。得(12)
Hadamard变换(两个向量对应元素相乘,由+1和-1构成的正交方阵)(12) min Z ∥ H − H Z ∥ F 2 + β Tr ( Θ ( R ⊙ Z ) ) s . t . d i a g ( Z ) = 0 , Z ≥ 0 , ∀ i \min _{Z}\|H-H Z\|_{F}^{2}+\beta \operatorname{Tr}(\Theta(R \odot Z))\\ s.t. diag (Z)=0, \quad Z \geq 0, \forall i \tag{12} Zmin∥H−HZ∥F2+βTr(Θ(R⊙Z))s.t.diag(Z)=0,Z≥0,∀i(12)
可将(12)中的优化问题分解为n个独立的子问题。每个子问题对应一个编码系数 z i z_i zi对应于 h i h_i hi,且每个子问题是加权非负稀疏编码问题。
(13) min z i ∑ k = 1 n r i k z i k + β ∥ h i − H z i ∥ 2 s . t . z i ≥ 0 , z i i = 0 , ∀ i \min _{z_{i}} \sum_{k=1}^{n} r_{i}^{k} z_{i}^{k}+\beta\left\|h_{i}-H z_{i}\right\|^{2}\\ s.t. z_{i} \geq 0, \quad z_{i}^{i}=0, \forall i \tag{13} zimink=1∑nrikzik+β∥hi−Hzi∥2s.t.zi≥0,zii=0,∀i(13)
其中 z i k 、 r i k z^k_i、r^k_i zik、rik是向量 z i z_i zi和 r i r_i ri的第K个元素。
(14) min z ≥ 0 ∥ z ∥ r , 1 + β ∥ h i − H − i z ∥ 2 2 \min _{z \geq 0}\|z\|_{r, 1}+\beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2} \tag{14} z≥0min∥z∥r,1+β∥hi−H−iz∥22(14)
其中 H − i H_{-i} H−i表示向量 { h 1 , … , h i − 1 , h i + 1 , … , h n } \left\{h_{1}, \ldots, h_{i-1}, h_{i+1}, \ldots, h_{n}\right\} {h1,…,hi−1,hi+1,…,hn}, ∥ ⋅ ∥ r , 1 \|\cdot\|_{r, 1} ∥⋅∥r,1是加权L1范数定义为: ∥ z ∥ r , 1 ≜ ∑ k = 1 n r k ∣ z k ∣ \|z\|_{r, 1} \triangleq\sum_{k=1}^{n} r^{k}\left|z^{k}\right| ∥z∥r,1≜∑k=1nrk∣∣zk∣∣,使z=f,有:
(15) min f ≥ 0 , z ∥ f ∥ r , 1 + β ∥ h i − H − i z ∥ 2 2 , s . t . z = f \min _{f \geq 0, z}\|f\|_{r, 1}+\beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2}, \quad s.t. z=f \tag{15} f≥0,zmin∥f∥r,1+β∥hi−H−iz∥22,s.t.z=f(15)
(15)的增广拉格朗日函数为:
(16) L = arg min f ≥ 0 , z ∥ f ∥ r , 1 + β ∥ h i − H − i z ∥ 2 2 + ⟨ y , z − f ⟩ + μ 2 ∥ z − f ∥ 2 2 \mathscr{L}=\arg \min _{f \geq 0, z}\|f\|_{r, 1}+\beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2} +\langle y, z-f\rangle+\frac{\mu}{2}\|z-f\|_{2}^{2} \tag{16} L=argf≥0,zmin∥f∥r,1+β∥hi−H−iz∥22+⟨y,z−f⟩+2μ∥z−f∥22(16)
变量通过最小化拉格朗日方程迭代更新,以下是解(16)的步骤。
step 1. 更新Z。
(17) L = arg min z β ∥ h i − H − i z ∥ 2 2 + μ 2 ∥ z − f + y μ ∥ 2 2 \mathscr{L}=\arg \min _{z} \beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2}+\frac{\mu}{2}\left\|z-f+\frac{y}{\mu}\right\|_{2}^{2} \tag{17} L=argzminβ∥hi−H−iz∥22+2μ∥∥∥∥z−f+μy∥∥∥∥22(17)
使 b = f − y μ b=f-\frac{y}{\mu} b=f−μy,可重写为:
(18) L = arg min z β ∥ h i − H − i z ∥ 2 2 + μ 2 ∥ z − b ∥ 2 2 \mathscr{L}=\arg \min _{z} \beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2}+\frac{\mu}{2}\|z-b\|_{2}^{2}\tag{18} L=argzminβ∥hi−H−iz∥22+2μ∥z−b∥22(18)
求导, L ∂ z = 0 \frac{\mathscr{L}}{\partial z}=0 ∂zL=0
(19) z = ( β ( H − i ) T ( H − i ) + μ 2 I ) − 1 ( β ( H − i ) T h i + μ 2 b ) z=\left(\beta\left(H_{-i}\right)^{T}\left(H_{-i}\right)+\frac{\mu}{2} I\right)^{-1}\left(\beta\left(H_{-i}\right)^{T} h_{i}+\frac{\mu}{2} b\right) \tag{19} z=(β(H−i)T(H−i)+2μI)−1(β(H−i)Thi+2μb)(19)
**step 2.**更新f。
(20) L = arg min f ≥ 0 ∥ f ∥ r , 1 + μ 2 ∥ z − f + y μ ∥ 2 2 \mathscr{L}=\arg \min _{f \geq 0}\|f\|_{r, 1}+\frac{\mu}{2}\left\|z-f+\frac{y}{\mu}\right\|_{2}^{2} \tag{20} L=argf≥0min∥f∥r,1+2μ∥∥∥∥z−f+μy∥∥∥∥22(20)
经一维收缩(软阈值)后:
(21) f i k = max ( 0 , shrink ( z i k + y i k μ , r i k μ ) ) f_{i}^{k}=\max \left(0, \operatorname{shrink}\left(z_{i}^{k}+\frac{y_{i}^{k}}{\mu}, \frac{r_{i}^{k}}{\mu}\right)\right) \tag{21} fik=max(0,shrink(zik+μyik,μrik))(21)
定义图权重矩阵:
(22) W = ( Z + Z T ) / 2 W=\left(Z+Z^{T}\right) / 2 \tag{22} W=(Z+ZT)/2(22)
与NNLRS(非负低秩稀疏图)区别:
NNLRS目标函数:
(23) min Z , E ∥ Z ∥ ∗ + β ∥ Z ∥ 1 + λ ∥ E ∥ 2 , 1 s . t . X = A Z + E , z ≥ 0 \min _{Z, E}\|Z\|_{*}+\beta\|Z\|_{1}+\lambda\|E\|_{2,1}\\ s.t. X=A Z+E, \quad z \geq 0 \tag{23} Z,Emin∥Z∥∗+β∥Z∥1+λ∥E∥2,1s.t.X=AZ+E,z≥0(23)
区别:
- NNLRS的Z定义在源特征空间,OSSPP的Z定义在目标低维特征空间,有更好的特征和相似性。
- NNLRS要剪枝,OSSPP不用剪枝,效果好。