Orthogonal self-guided similarity preserving projection for classification and clustering

  • 待解决问题
    特征表示需求
    (1)需要最合适的特征表示来定义数据的内在结构
    (2)需要使用合适的数据内在结构来进行特征提取。

  • 创新点
    提出了一种统一的学习框架orthogonal self-guided similarity preserving projection(OSSPP)正交自导相似性保留投影方法,同时获得数据的最优特征表示和内在结构。其中,数据的相似结构信息由投影数据的重构系数编码,同时要求投影数据通过保留相似度正则项来遵循相似结构。

  • 框架

在这里插入图片描述

P是投影矩阵,将源数据投影到低维子空间去学习重构系数矩阵Z,同时Z也给反馈P,最后用P和W去实现降维和子空间聚类。

  • RELATED WORK

    本文模型基于LS3C(latent space sparse subspace clustering).
    每个X中的样例可以被最多 d l d_l dl个样本线性表示。

(1) x i = X z i , z i i = 0 , ∥ z i ∥ 0 ≤ d ℓ x_{i}=X z_{i}, \quad z_{i i}=0, \quad\left\|z_{i}\right\|_{0} \leq d_{\ell} \tag{1} xi=Xzi,zii=0,zi0d(1)

​ 其中 z i z_i zi是重构系数向量。将(1)改写为矩阵形式:

(2) min ⁡ ∥ Z ∥ 1 , s . t . X = X Z , diag ⁡ ( Z ) = 0 \min \|Z\|_{1}, \quad s.t. X=X Z, \quad \operatorname{diag}(Z)=0 \tag{2} minZ1,s.t.X=XZ,diag(Z)=0(2)

​ 其中 ∥ Z ∥ 1 = ∑ i = 1 n ∑ j = 1 n ∣ Z i j ∣ \|Z\|_{1}=\sum_{i=1}^{n} \sum_{j=1}^{n}\left|Z_{i j}\right| Z1=i=1nj=1nZij,用1范数表示重构系数矩阵Z。
​ 加噪声E, X = X Z + E X=X Z+E X=XZ+E:

(3) min ⁡ Z ∥ Z ∥ 1 + γ ∥ X − X Z ∥ F 2 , s . t . d i a g ( Z ) = 0 \min _{Z}\|Z\|_{1}+\gamma\|X-X Z\|_{F}^{2}, \quad s.t. diag (Z)=0 \tag{3} ZminZ1+γXXZF2,s.t.diag(Z)=0(3)

​ LS3C将样本嵌入低维空间,发现空间中的稀疏编码。
​ 用投影矩阵P将训练样本从源高维特征空间投影到t维潜在输出空间。通过最小化以下损失方程实现:

(4) [ P ∗ , Z ∗ ] = min ⁡ P , Z J ( P , Z , X )  s.t.  P P T = I , diag ⁡ ( Z ) = 0 \begin{aligned}\left[P^{*}, Z^{*}\right] &=\min _{P, Z}J(P, Z, X) \\ \text { s.t. } P P^{T} &=I, \quad \operatorname{diag}(Z)=0 \end{aligned} \tag{4} [P,Z] s.t. PPT=P,ZminJ(P,Z,X)=I,diag(Z)=0(4)

​ 其中:

J ( P , Z , X ) = ∥ Z ∥ 1 + γ 1 ∥ P X − P X Z ∥ F 2 + γ 2 ∥ X − P T P X ∥ F 2 ​ J(P, Z, X)=\|Z\|_{1}+\gamma_{1}\|P X-P X Z\|_{F}^{2}+\gamma_{2}\left\|X-P^{T} P X\right\|_{F}^{2}​ J(P,Z,X)=Z1+γ1PXPXZF2+γ2XPTPXF2

​ 前两项确保数据在低维空间的稀疏性和重构性,最后一项是正则化项,确保投影保持主要数据能量。

​ 增加一个仿射约束:

(5) [ P ∗ , Z ∗ ] = min ⁡ P , C J ( P , Z , X ) s . t . P P T = I , Z T 1 = 1 , diag ⁡ ( Z ) = 0 \left[P^{*}, Z^{*}\right]=\min _{P, C}J(P, Z, X)\\ s.t. P P^{T}=I, \quad Z^{T} 1=1, \quad \operatorname{diag}(Z)=0 \tag{5} [P,Z]=P,CminJ(P,Z,X)s.t.PPT=I,ZT1=1,diag(Z)=0(5)

​ 处理位于仿射单元的数据。
​ 上述模型保留了稀疏结构,失去了相似结构。

  • OSSPP

    • 主要思想:使用投影数据的重构系数对相似结构信息编码,且在降维过程中遵循相似结构。其投影矩阵P和重构系数矩阵Z迭代更新。
      若Z可获得相似性,则任意两个投影点 P T x i 、 P T x j ​ P^{T} x_{i} \text 、 P^{T} x_{j}​ PTxiPTxj在数据分布的固有几何形状上接近,都具有较大的权值 Z i j ​ Z_{ij}​ Zij
      OSSPP目标函数
      (6) [ P ∗ , Z ∗ ] = min ⁡ P , Z F ( P , Z ) s . t . P T P = I , diag ⁡ ( Z ) = 0 , Z ≥ 0 , ∀ i ​ \left[P^{*}, Z^{*}\right]=\min _{P, Z} F(P, Z)\\ s.t. P^{T} P=I, \operatorname{diag}(Z)=0, \quad Z \geq 0, \forall i \tag{6}​ [P,Z]=P,ZminF(P,Z)s.t.PTP=I,diag(Z)=0,Z0,i(6)

      其中:
      F ( P , Z ) = ∥ P T X − P T X Z ∥ F 2 + α ∥ X − P P T X ∥ F 2 + β ∑ i = 1 n ∑ j = 1 n ∥ P T x i − P T x j ∥ 2 Z i j F(P, Z)=\left\|P^{T} X-P^{T} X Z\right\|_{F}^{2}+\alpha\left\|X-P P^{T} X\right\|_{F}^{2} +\beta \sum_{i=1}^{n} \sum_{j=1}^{n}\left\|P^{T} x_{i}-P^{T} x_{j}\right\|^{2} Z_{i j} F(P,Z)=PTXPTXZF2+αXPPTXF2+βi=1nj=1nPTxiPTxj2Zij

      重构系数矩阵Z是非负的,可以用作图权重。相比于LS3C去掉了对Z的仿射约束,以更好地抓取数据的相似结构。新增的最后一项是保留相似性的正则化项(普通正则化项*重构系数),目的使投影数据在降维过程遵循相似结构。

  • 优化

    分两步:

    1. 固定Z求P
    2. 固定P求Z
    • 固定Z求P

    固定Z后,(6)可被写为:

    (7) P ∗ = arg ⁡ min ⁡ P ∥ P T X − P T X Z ∥ F 2 + α ∥ X − P P T X ∥ F 2 + β Tr ⁡ ( P T X L X T P )  s.t.  P T P = I ​ \begin{aligned} P^{*}=& \arg \min _{P}\left\|P^{T} X-P^{T} X Z\right\|_{F}^{2} \\ &+\alpha\left\|X-P P^{T} X\right\|_{F}^{2}+\beta \operatorname{Tr}\left(P^{T} X L X^{T} P\right) \\ \text { s.t. } P^{T} P=I & \end{aligned} \tag{7}​ P= s.t. PTP=IargPminPTXPTXZF2+αXPPTXF2+βTr(PTXLXTP)(7)

    其中L=D-Z是图拉普拉斯矩阵。D是 D j j = ∑ k Z j k ​ D_{j j}=\sum_{k} Z_{j k}​ Djj=kZjk的对角阵。考虑约束$ P^{T} P=I​ , 有 ( ,有( (\left|A\right|_{F}{2}=Tr(ATA)​$):

    (8) P ∗ = arg ⁡ min ⁡ P Tr ⁡ ( P T ( X − X Z ) ( X − X Z ) T P ) + α Tr ⁡ ( X T X − P T X X T P ) + β Tr ⁡ ( P T X L X T P ) ​ \begin{aligned} P^{*}=& \arg \min _{P} \operatorname{Tr}\left(P^{T}(X-X Z)(X-X Z)^{T} P\right) \\ &+\alpha \operatorname{Tr}\left(X^{T} X-P^{T} X X^{T} P\right)+\beta \operatorname{Tr}\left(P^{T} X L X^{T} P\right) \end{aligned} \tag{8}​ P=argPminTr(PT(XXZ)(XXZ)TP)+αTr(XTXPTXXTP)+βTr(PTXLXTP)(8)

    使 ( X − X Z ) ( X − X Z ) T = M ​ (X-X Z)(X-X Z)^{T}=M​ (XXZ)(XXZ)T=M,可得:

    (9) P ∗ = arg ⁡ min ⁡ P Tr ⁡ ( P T ( M − α X X T + β X L X T ) P ) s . t . P T P = I ​ P^{*}=\arg \min _{P} \operatorname{Tr}\left(P^{T}\left(M-\alpha X X^{T}+\beta X L X^{T}\right) P\right)\\ s.t. P^{T} P=I \tag{9}​ P=argPminTr(PT(MαXXT+βXLXT)P)s.t.PTP=I(9)

    则转化为求解最小特征值问题:

    (10) ( M − α X X T + β X L X T ) p i = λ p i \left(M-\alpha X X^{T}+\beta X L X^{T}\right) p_{i}=\lambda p_{i} \tag{10} (MαXXT+βXLXT)pi=λpi(10)

    • 固定P求Z

    固定P后,(6)可被写为:

    (11) min ⁡ Z ∥ P T X − P T X Z ∥ F 2 + β ∑ i = 1 n ∑ j = 1 n ∥ P T x i − P T x j ∥ 2 Z i j s . t . diag ⁡ ( Z ) = 0 , Z ≥ 0 ​ \min _{Z}\left\|P^{T} X-P^{T} X Z\right\|_{F}^{2}+\beta \sum_{i=1}^{n} \sum_{j=1}^{n}\left\|P^{T} x_{i}-P^{T} x_{j}\right\|^{2} Z_{i j}\\ s.t. \operatorname{diag}(Z)=0, \quad Z \geq 0 \tag{11}​ ZminPTXPTXZF2+βi=1nj=1nPTxiPTxj2Zijs.t.diag(Z)=0,Z0(11)

    H = P T X = [ h 1 , … , h n ] ∈ ℜ d × n ​ H=P^{T} X=\left[h_{1}, \ldots, h_{n}\right] \in \Re^{d \times n}​ H=PTX=[h1,,hn]d×n R i j = ∥ P T x i − P T x j ∥ 2 ( R = [ r 1 , … , r n ] ∈ ℜ n × n ) ​ R_{i j}=\left\|P^{T} x_{i}-P^{T} x_{j}\right\|^{2}(R=\left[r_{1}, \ldots, r_{n}\right] \in \Re^{n \times n} )​ Rij=PTxiPTxj2(R=[r1,,rn]n×n) Θ ∈ ℜ n × n ​ \Theta \in \Re^{n \times n}​ Θn×n是 一个全1矩阵。 ⊙ ​ \odot​ 是Hadamard变换。得(12)
    Hadamard变换(两个向量对应元素相乘,由+1和-1构成的正交方阵)

    (12) min ⁡ Z ∥ H − H Z ∥ F 2 + β Tr ⁡ ( Θ ( R ⊙ Z ) ) s . t . d i a g ( Z ) = 0 , Z ≥ 0 , ∀ i ​ \min _{Z}\|H-H Z\|_{F}^{2}+\beta \operatorname{Tr}(\Theta(R \odot Z))\\ s.t. diag (Z)=0, \quad Z \geq 0, \forall i \tag{12}​ ZminHHZF2+βTr(Θ(RZ))s.t.diag(Z)=0,Z0,i(12)

    可将(12)中的优化问题分解为n个独立的子问题。每个子问题对应一个编码系数 z i ​ z_i​ zi对应于 h i ​ h_i​ hi,且每个子问题是加权非负稀疏编码问题。

    (13) min ⁡ z i ∑ k = 1 n r i k z i k + β ∥ h i − H z i ∥ 2 s . t . z i ≥ 0 , z i i = 0 , ∀ i \min _{z_{i}} \sum_{k=1}^{n} r_{i}^{k} z_{i}^{k}+\beta\left\|h_{i}-H z_{i}\right\|^{2}\\ s.t. z_{i} \geq 0, \quad z_{i}^{i}=0, \forall i \tag{13} zimink=1nrikzik+βhiHzi2s.t.zi0,zii=0,i(13)

    其中 z i k 、 r i k ​ z^k_i、r^k_i​ zikrik是向量 z i ​ z_i​ zi r i ​ r_i​ ri的第K个元素。

    (14) min ⁡ z ≥ 0 ∥ z ∥ r , 1 + β ∥ h i − H − i z ∥ 2 2 ​ \min _{z \geq 0}\|z\|_{r, 1}+\beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2} \tag{14}​ z0minzr,1+βhiHiz22(14)

    其中 H − i H_{-i} Hi表示向量 { h 1 , … , h i − 1 , h i + 1 , … , h n } \left\{h_{1}, \ldots, h_{i-1}, h_{i+1}, \ldots, h_{n}\right\} {h1,,hi1,hi+1,,hn} ∥ ⋅ ∥ r , 1 \|\cdot\|_{r, 1} r,1是加权L1范数定义为: ∥ z ∥ r , 1 ≜ ∑ k = 1 n r k ∣ z k ∣ \|z\|_{r, 1} \triangleq\sum_{k=1}^{n} r^{k}\left|z^{k}\right| zr,1k=1nrkzk,使z=f,有:

    (15) min ⁡ f ≥ 0 , z ∥ f ∥ r , 1 + β ∥ h i − H − i z ∥ 2 2 , s . t . z = f \min _{f \geq 0, z}\|f\|_{r, 1}+\beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2}, \quad s.t. z=f \tag{15} f0,zminfr,1+βhiHiz22,s.t.z=f(15)

    (15)的增广拉格朗日函数为:

    (16) L = arg ⁡ min ⁡ f ≥ 0 , z ∥ f ∥ r , 1 + β ∥ h i − H − i z ∥ 2 2 + ⟨ y , z − f ⟩ + μ 2 ∥ z − f ∥ 2 2 \mathscr{L}=\arg \min _{f \geq 0, z}\|f\|_{r, 1}+\beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2} +\langle y, z-f\rangle+\frac{\mu}{2}\|z-f\|_{2}^{2} \tag{16} L=argf0,zminfr,1+βhiHiz22+y,zf+2μzf22(16)

    变量通过最小化拉格朗日方程迭代更新,以下是解(16)的步骤。

    step 1. 更新Z。

    (17) L = arg ⁡ min ⁡ z β ∥ h i − H − i z ∥ 2 2 + μ 2 ∥ z − f + y μ ∥ 2 2 \mathscr{L}=\arg \min _{z} \beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2}+\frac{\mu}{2}\left\|z-f+\frac{y}{\mu}\right\|_{2}^{2} \tag{17} L=argzminβhiHiz22+2μzf+μy22(17)

    使 b = f − y μ b=f-\frac{y}{\mu} b=fμy,可重写为:

    (18) L = arg ⁡ min ⁡ z β ∥ h i − H − i z ∥ 2 2 + μ 2 ∥ z − b ∥ 2 2 \mathscr{L}=\arg \min _{z} \beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2}+\frac{\mu}{2}\|z-b\|_{2}^{2}\tag{18} L=argzminβhiHiz22+2μzb22(18)

    求导, L ∂ z = 0 \frac{\mathscr{L}}{\partial z}=0 zL=0

    (19) z = ( β ( H − i ) T ( H − i ) + μ 2 I ) − 1 ( β ( H − i ) T h i + μ 2 b ) z=\left(\beta\left(H_{-i}\right)^{T}\left(H_{-i}\right)+\frac{\mu}{2} I\right)^{-1}\left(\beta\left(H_{-i}\right)^{T} h_{i}+\frac{\mu}{2} b\right) \tag{19} z=(β(Hi)T(Hi)+2μI)1(β(Hi)Thi+2μb)(19)

    **step 2.**更新f。

    (20) L = arg ⁡ min ⁡ f ≥ 0 ∥ f ∥ r , 1 + μ 2 ∥ z − f + y μ ∥ 2 2 \mathscr{L}=\arg \min _{f \geq 0}\|f\|_{r, 1}+\frac{\mu}{2}\left\|z-f+\frac{y}{\mu}\right\|_{2}^{2} \tag{20} L=argf0minfr,1+2μzf+μy22(20)

    经一维收缩(软阈值)后:

    (21) f i k = max ⁡ ( 0 , shrink ⁡ ( z i k + y i k μ , r i k μ ) ) f_{i}^{k}=\max \left(0, \operatorname{shrink}\left(z_{i}^{k}+\frac{y_{i}^{k}}{\mu}, \frac{r_{i}^{k}}{\mu}\right)\right) \tag{21} fik=max(0,shrink(zik+μyik,μrik))(21)

    定义图权重矩阵:

    (22) W = ( Z + Z T ) / 2 W=\left(Z+Z^{T}\right) / 2 \tag{22} W=(Z+ZT)/2(22)

    与NNLRS(非负低秩稀疏图)区别:

    NNLRS目标函数:

    (23) min ⁡ Z , E ∥ Z ∥ ∗ + β ∥ Z ∥ 1 + λ ∥ E ∥ 2 , 1 s . t . X = A Z + E , z ≥ 0 \min _{Z, E}\|Z\|_{*}+\beta\|Z\|_{1}+\lambda\|E\|_{2,1}\\ s.t. X=A Z+E, \quad z \geq 0 \tag{23} Z,EminZ+βZ1+λE2,1s.t.X=AZ+E,z0(23)

    区别:

    1. NNLRS的Z定义在源特征空间,OSSPP的Z定义在目标低维特征空间,有更好的特征和相似性。
    2. NNLRS要剪枝,OSSPP不用剪枝,效果好。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值