Orthogonal self-guided similarity preserving projection for classification and clustering-CSDN博客

提出了一种新的学习框架OSSPP，用于获取数据的最优特征表示和内在结构，通过投影数据的重构系数编码相似结构信息，并在降维过程中遵循相似结构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

待解决问题
特征表示需求
(1)需要最合适的特征表示来定义数据的内在结构
(2)需要使用合适的数据内在结构来进行特征提取。
创新点
提出了一种统一的学习框架orthogonal self-guided similarity preserving projection(OSSPP)正交自导相似性保留投影方法，同时获得数据的最优特征表示和内在结构。其中，数据的相似结构信息由投影数据的重构系数编码，同时要求投影数据通过保留相似度正则项来遵循相似结构。
框架

在这里插入图片描述

P是投影矩阵，将源数据投影到低维子空间去学习重构系数矩阵Z，同时Z也给反馈P，最后用P和W去实现降维和子空间聚类。

RELATED WORK

本文模型基于LS3C（latent space sparse subspace clustering).
每个X中的样例可以被最多 $d_l$ 个样本线性表示。

$(1)xi=Xzi,zii=0,∥zi∥0≤dℓx_{i}=X z_{i}, \quad z_{i i}=0, \quad\left\|z_{i}\right\|_{0} \leq d_{\ell} \tag{1}$

其中 $z_i$ 是重构系数向量。将（1）改写为矩阵形式：

$(2)min⁡∥Z∥1,s.t.X=XZ,diag⁡(Z)=0\min \|Z\|_{1}, \quad s.t. X=X Z, \quad \operatorname{diag}(Z)=0 \tag{2}$

其中 $∥Z∥1=∑i=1n∑j=1n∣Zij∣\|Z\|_{1}=\sum_{i=1}^{n} \sum_{j=1}^{n}\left|Z_{i j}\right|$ ，用1范数表示重构系数矩阵Z。
加噪声E， $X = X Z + E$ :

$(3)min⁡Z∥Z∥1+γ∥X−XZ∥F2,s.t.diag(Z)=0\min _{Z}\|Z\|_{1}+\gamma\|X-X Z\|_{F}^{2}, \quad s.t. diag (Z)=0 \tag{3}$

LS3C将样本嵌入低维空间，发现空间中的稀疏编码。
用投影矩阵P将训练样本从源高维特征空间投影到t维潜在输出空间。通过最小化以下损失方程实现：

$PPT=I,diag⁡(Z)=0\begin{aligned}\left[P^{*}, Z^{*}\right] &=\min _{P, Z}J(P, Z, X) \\ \text { s.t. } P P^{T} &=I, \quad \operatorname{diag}(Z)=0 \end{aligned} \tag{4}$

其中：

$X)=\|Z\|_{1}+\gamma_{1}\|P X-P X Z\|_{F}^{2}+\gamma_{2}\left\|X-P^{T} P X\right\|_{F}^{2}$

前两项确保数据在低维空间的稀疏性和重构性，最后一项是正则化项，确保投影保持主要数据能量。

增加一个仿射约束：

$(5)[P∗,Z∗]=min⁡P,CJ(P,Z,X)s.t.PPT=I,ZT1=1,diag⁡(Z)=0\left[P^{*}, Z^{*}\right]=\min _{P, C}J(P, Z, X)\\ s.t. P P^{T}=I, \quad Z^{T} 1=1, \quad \operatorname{diag}(Z)=0 \tag{5}$

处理位于仿射单元的数据。
上述模型保留了稀疏结构，失去了相似结构。

OSSPP
- 主要思想：使用投影数据的重构系数对相似结构信息编码，且在降维过程中遵循相似结构。其投影矩阵P和重构系数矩阵Z迭代更新。
  若Z可获得相似性，则任意两个投影点 $PTxi、PTxjP^{T} x_{i} \text 、 P^{T} x_{j}$ 在数据分布的固有几何形状上接近，都具有较大的权值 $Z_{ij}$ 。
  OSSPP目标函数：
  $(6)[P∗,Z∗]=min⁡P,ZF(P,Z)s.t.PTP=I,diag⁡(Z)=0,Z≥0,∀i\left[P^{*}, Z^{*}\right]=\min _{P, Z} F(P, Z)\\ s.t. P^{T} P=I, \operatorname{diag}(Z)=0, \quad Z \geq 0, \forall i \tag{6}$
  
  其中：
  $Z)=\left\|P^{T} X-P^{T} X Z\right\|_{F}^{2}+\alpha\left\|X-P P^{T} X\right\|_{F}^{2} +\beta \sum_{i=1}^{n} \sum_{j=1}^{n}\left\|P^{T} x_{i}-P^{T} x_{j}\right\|^{2} Z_{i j}$
  
  重构系数矩阵Z是非负的，可以用作图权重。相比于LS3C去掉了对Z的仿射约束，以更好地抓取数据的相似结构。新增的最后一项是保留相似性的正则化项（普通正则化项*重构系数），目的使投影数据在降维过程遵循相似结构。
优化

分两步：
1. 固定Z求P
2. 固定P求Z
- 固定Z求P
固定Z后，(6)可被写为：

$PTP=I\begin{aligned} P^{*}=& \arg \min _{P}\left\|P^{T} X-P^{T} X Z\right\|_{F}^{2} \\ &+\alpha\left\|X-P P^{T} X\right\|_{F}^{2}+\beta \operatorname{Tr}\left(P^{T} X L X^{T} P\right) \\ \text { s.t. } P^{T} P=I & \end{aligned} \tag{7}$

其中L=D-Z是图拉普拉斯矩阵。D是 $Djj=∑kZjkD_{j j}=\sum_{k} Z_{j k}$ 的对角阵。考虑约束$ P^{T} P=I $，有 ($ \left|A\right|_{F}^{2}=Tr(ATA)$)：

$(8)P∗=arg⁡min⁡PTr⁡(PT(X−XZ)(X−XZ)TP)+αTr⁡(XTX−PTXXTP)+βTr⁡(PTXLXTP)\begin{aligned} P^{*}=& \arg \min _{P} \operatorname{Tr}\left(P^{T}(X-X Z)(X-X Z)^{T} P\right) \\ &+\alpha \operatorname{Tr}\left(X^{T} X-P^{T} X X^{T} P\right)+\beta \operatorname{Tr}\left(P^{T} X L X^{T} P\right) \end{aligned} \tag{8}$

使 $X-X Z)(X-X Z)^{T}=M$ ，可得：

$(9)P∗=arg⁡min⁡PTr⁡(PT(M−αXXT+βXLXT)P)s.t.PTP=IP^{*}=\arg \min _{P} \operatorname{Tr}\left(P^{T}\left(M-\alpha X X^{T}+\beta X L X^{T}\right) P\right)\\ s.t. P^{T} P=I \tag{9}$

则转化为求解最小特征值问题：

$(10)(M−αXXT+βXLXT)pi=λpi\left(M-\alpha X X^{T}+\beta X L X^{T}\right) p_{i}=\lambda p_{i} \tag{10}$
- 固定P求Z
固定P后，(6)可被写为：

$(11)min⁡Z∥PTX−PTXZ∥F2+β∑i=1n∑j=1n∥PTxi−PTxj∥2Zijs.t.diag⁡(Z)=0,Z≥0\min _{Z}\left\|P^{T} X-P^{T} X Z\right\|_{F}^{2}+\beta \sum_{i=1}^{n} \sum_{j=1}^{n}\left\|P^{T} x_{i}-P^{T} x_{j}\right\|^{2} Z_{i j}\\ s.t. \operatorname{diag}(Z)=0, \quad Z \geq 0 \tag{11}$

令 $H=PTX=[h1,…,hn]∈ℜd×nH=P^{T} X=\left[h_{1}, \ldots, h_{n}\right] \in \Re^{d \times n}$ ， $Rij=∥PTxi−PTxj∥2(R=[r1,…,rn]∈ℜn×n)R_{i j}=\left\|P^{T} x_{i}-P^{T} x_{j}\right\|^{2}(R=\left[r_{1}, \ldots, r_{n}\right] \in \Re^{n \times n} )$ ， $Θ∈ℜn×n\Theta \in \Re^{n \times n}$ 是一个全1矩阵。 $⊙\odot$ 是Hadamard变换。得(12)
Hadamard变换（两个向量对应元素相乘，由+1和-1构成的正交方阵）

$(12)min⁡Z∥H−HZ∥F2+βTr⁡(Θ(R⊙Z))s.t.diag(Z)=0,Z≥0,∀i\min _{Z}\|H-H Z\|_{F}^{2}+\beta \operatorname{Tr}(\Theta(R \odot Z))\\ s.t. diag (Z)=0, \quad Z \geq 0, \forall i \tag{12}$

可将(12)中的优化问题分解为n个独立的子问题。每个子问题对应一个编码系数 $z_i$ 对应于 $h_i$ ，且每个子问题是加权非负稀疏编码问题。

$(13)min⁡zi∑k=1nrikzik+β∥hi−Hzi∥2s.t.zi≥0,zii=0,∀i\min _{z_{i}} \sum_{k=1}^{n} r_{i}^{k} z_{i}^{k}+\beta\left\|h_{i}-H z_{i}\right\|^{2}\\ s.t. z_{i} \geq 0, \quad z_{i}^{i}=0, \forall i \tag{13}$

其中 $zik、rikz^k_i、r^k_i$ 是向量 $z_i$ 和 $r_i$ 的第K个元素。

$(14)min⁡z≥0∥z∥r,1+β∥hi−H−iz∥22\min _{z \geq 0}\|z\|_{r, 1}+\beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2} \tag{14}$

其中 $H_{-i}$ 表示向量 ${h1,…,hi−1,hi+1,…,hn}\left\{h_{1}, \ldots, h_{i-1}, h_{i+1}, \ldots, h_{n}\right\}$ ， $∥⋅∥r,1\|\cdot\|_{r, 1}$ 是加权L1范数定义为： $∥z∥r,1≜∑k=1nrk∣zk∣\|z\|_{r, 1} \triangleq\sum_{k=1}^{n} r^{k}\left|z^{k}\right|$ ，使z=f，有：

$(15)min⁡f≥0,z∥f∥r,1+β∥hi−H−iz∥22,s.t.z=f\min _{f \geq 0, z}\|f\|_{r, 1}+\beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2}, \quad s.t. z=f \tag{15}$

(15)的增广拉格朗日函数为：

$(16)L=arg⁡min⁡f≥0,z∥f∥r,1+β∥hi−H−iz∥22+⟨y,z−f⟩+μ2∥z−f∥22\mathscr{L}=\arg \min _{f \geq 0, z}\|f\|_{r, 1}+\beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2} +\langle y, z-f\rangle+\frac{\mu}{2}\|z-f\|_{2}^{2} \tag{16}$

变量通过最小化拉格朗日方程迭代更新，以下是解(16)的步骤。

step 1. 更新Z。

$(17)L=arg⁡min⁡zβ∥hi−H−iz∥22+μ2∥z−f+yμ∥22\mathscr{L}=\arg \min _{z} \beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2}+\frac{\mu}{2}\left\|z-f+\frac{y}{\mu}\right\|_{2}^{2} \tag{17}$

使 $b=f−yμb=f-\frac{y}{\mu}$ ，可重写为：

$(18)L=arg⁡min⁡zβ∥hi−H−iz∥22+μ2∥z−b∥22\mathscr{L}=\arg \min _{z} \beta\left\|h_{i}-H_{-i} z\right\|_{2}^{2}+\frac{\mu}{2}\|z-b\|_{2}^{2}\tag{18}$

求导， $L∂z=0\frac{\mathscr{L}}{\partial z}=0$

$(19)z=(β(H−i)T(H−i)+μ2I)−1(β(H−i)Thi+μ2b)z=\left(\beta\left(H_{-i}\right)^{T}\left(H_{-i}\right)+\frac{\mu}{2} I\right)^{-1}\left(\beta\left(H_{-i}\right)^{T} h_{i}+\frac{\mu}{2} b\right) \tag{19}$

**step 2.**更新f。

$(20)L=arg⁡min⁡f≥0∥f∥r,1+μ2∥z−f+yμ∥22\mathscr{L}=\arg \min _{f \geq 0}\|f\|_{r, 1}+\frac{\mu}{2}\left\|z-f+\frac{y}{\mu}\right\|_{2}^{2} \tag{20}$

经一维收缩（软阈值）后：

$(21)fik=max⁡(0,shrink⁡(zik+yikμ,rikμ))f_{i}^{k}=\max \left(0, \operatorname{shrink}\left(z_{i}^{k}+\frac{y_{i}^{k}}{\mu}, \frac{r_{i}^{k}}{\mu}\right)\right) \tag{21}$

定义图权重矩阵：

$(22)W=(Z+ZT)/2W=\left(Z+Z^{T}\right) / 2 \tag{22}$

与NNLRS（非负低秩稀疏图）区别：

NNLRS目标函数：

$(23)min⁡Z,E∥Z∥∗+β∥Z∥1+λ∥E∥2,1s.t.X=AZ+E,z≥0\min _{Z, E}\|Z\|_{*}+\beta\|Z\|_{1}+\lambda\|E\|_{2,1}\\ s.t. X=A Z+E, \quad z \geq 0 \tag{23}$

区别：
1. NNLRS的Z定义在源特征空间，OSSPP的Z定义在目标低维特征空间，有更好的特征和相似性。
2. NNLRS要剪枝，OSSPP不用剪枝，效果好。