PR-2023《local clustering and unsupervised feature selection via strong space constraint》


推荐一个机器学习前沿公众号,第一时间获取最有价值的前沿机器学习文章。

在这里插入图片描述


核心思想分析

该论文提出了一种新的无监督特征选择(Unsupervised Feature Selection, UFS)方法,称为SLUFS(Simultaneous Local clustering and Unsupervised Feature Selection)。其核心思想是将局部结构学习(Local Structure Learning)与判别分析(Discriminative Analysis)结合,通过引入 ℓ 2 , 0 \ell_{2,0} 2,0-范数约束来实现结构化的稀疏子空间学习,从而同时完成聚类和特征选择。主要解决的问题包括:

  1. 高维数据挑战:高维数据对聚类任务构成障碍,传统的UFS方法通常使用 ℓ 2 , 1 \ell_{2,1} 2,1-范数进行稀疏学习,但其稀疏性依赖于权衡参数的设置,导致特征选择的不稳定性和模糊稀疏性。
  2. 全局结构不足:全局结构分析难以捕捉多模态数据的几何结构,局部结构学习能够更好地利用数据的局部流形结构。
  3. 稀疏性改进:通过 ℓ 2 , 0 \ell_{2,0} 2,0-范数约束替代 ℓ 2 , 1 \ell_{2,1} 2,1-范数,获得明确的稀疏子空间,避免手动特征排序和调参的麻烦,提高特征选择的稳定性和模型性能。

该方法通过局部判别分析、谱聚类正则化和 ℓ 2 , 0 \ell_{2,0} 2,0-范数约束,构建了一个统一的框架,既保留数据的局部流形结构,又增强了特征选择的判别能力。

目标函数分析

论文的目标函数旨在最大化局部判别分析的迹,同时引入谱聚类正则化项和 ℓ 2 , 0 \ell_{2,0} 2,0-范数约束,确保稀疏性和正交性。其最终目标函数形式如下:

max ⁡ W Tr ⁡ ( W T ( ∑ i = 1 n X i X ~ i T ( X ~ i X ~ i T + μ I ) − 1 X ~ i X i T − α X L X T ) W ) , \max_{\mathbf{W}} \operatorname{Tr}\left(\mathbf{W}^T \left( \sum_{i=1}^n \mathbf{X}_i \tilde{\mathbf{X}}_i^T \left( \tilde{\mathbf{X}}_i \tilde{\mathbf{X}}_i^T + \mu \mathbf{I} \right)^{-1} \tilde{\mathbf{X}}_i \mathbf{X}_i^T - \alpha \mathbf{X} \mathbf{L} \mathbf{X}^T \right) \mathbf{W} \right), WmaxTr(WT(i=1nXiX~iT(X~iX~iT+μI)1X~iXiTαXLXT)W),

s.t. W T W = I , ∥ W ∥ 2 , 0 = p , \text{s.t.} \quad \mathbf{W}^T \mathbf{W} = \mathbf{I}, \quad \|\mathbf{W}\|_{2,0} = p, s.t.WTW=I,W2,0=p,

其中:

  • W ∈ R d × c \mathbf{W} \in \mathbb{R}^{d \times c} WRd×c:特征选择矩阵,表示子空间投影矩阵。
  • X i \mathbf{X}_i Xi:样本 i i i的邻居集(Neighbor Set, NSet)矩阵,通过 k k k近邻(KNN)构建。
  • X ~ i \tilde{\mathbf{X}}_i X~i:样本 i i i的中心化邻居集矩阵。
  • S t ( i ) = X ~ i X ~ i T \mathbf{S}_t^{(i)} = \tilde{\mathbf{X}}_i \tilde{\mathbf{X}}_i^T St(i)=X~iX~iT:样本 i i i的邻居集的总散布矩阵。
  • S b ( i ) = X ~ i F i F i T X ~ i T \mathbf{S}_b^{(i)} = \tilde{\mathbf{X}}_i \mathbf{F}_i \mathbf{F}_i^T \tilde{\mathbf{X}}_i^T Sb(i)=X~iFiFiTX~iT:样本 i i i的邻居集的类间散布矩阵, F i \mathbf{F}_i Fi为伪聚类指示矩阵。
  • μ \mu μ:正则化参数,避免矩阵奇异。
  • α \alpha α:谱聚类正则化项的权衡参数, L \mathbf{L} L为图拉普拉斯矩阵, X L X T \mathbf{X} \mathbf{L} \mathbf{X}^T XLXT捕捉数据的全局流形结构。
  • W T W = I \mathbf{W}^T \mathbf{W} = \mathbf{I} WTW=I:正交约束,避免任意缩放。
  • ∥ W ∥ 2 , 0 = p \|\mathbf{W}\|_{2,0} = p W2,0=p ℓ 2 , 0 \ell_{2,0} 2,0-范数约束,确保 W \mathbf{W} W中只有 p p p个非零行,对应选择的特征数量。

目标函数组成

  1. 局部判别分析项 ∑ i = 1 n Tr ⁡ ( ( S t ( i ) + μ I ) − 1 S b ( i ) ) \sum_{i=1}^n \operatorname{Tr}\left( \left( \mathbf{S}_t^{(i)} + \mu \mathbf{I} \right)^{-1} \mathbf{S}_b^{(i)} \right) i=1nTr((St(i)+μI)1Sb(i)),通过最大化类间散布与总散布的比率,增强子空间的判别能力。
  2. 谱聚类正则化项 − α Tr ⁡ ( W T X L X T W ) -\alpha \operatorname{Tr}\left( \mathbf{W}^T \mathbf{X} \mathbf{L} \mathbf{X}^T \mathbf{W} \right) αTr(WTXLXTW),利用图拉普拉斯矩阵保留数据的全局几何结构,防止局部邻居集重叠导致的过拟合。
  3. 稀疏约束 ℓ 2 , 0 \ell_{2,0} 2,0-范数确保选择固定数量 p p p的特征,形成明确的稀疏子空间。

目标函数优化过程分析

优化目标函数是一个NP难的整数规划问题,由于 ℓ 2 , 0 \ell_{2,0} 2,0-范数的离散性质,直接求解具有挑战性。论文提出了一种新颖的优化算法,分为特殊情况和一般情况两种策略:

1. 特殊情况(Special Cases)

∥ W ∥ 2 , 0 = p = c \|\mathbf{W}\|_{2,0} = p = c W2,0=p=c rank ⁡ ( M ) ≤ c \operatorname{rank}(\mathbf{M}) \leq c rank(M)c时,优化问题可简化为:

max ⁡ W Tr ⁡ ( W T M W ) , s.t. W T W = I , ∥ W ∥ 2 , 0 = p , \max_{\mathbf{W}} \operatorname{Tr}\left( \mathbf{W}^T \mathbf{M} \mathbf{W} \right), \quad \text{s.t.} \quad \mathbf{W}^T \mathbf{W} = \mathbf{I}, \quad \|\mathbf{W}\|_{2,0} = p, WmaxTr(WTMW),s.t.WTW=I,W2,0=p,

其中 M = ∑ i = 1 n X i X ~ i T ( X ~ i X ~ i T + μ I ) − 1 X ~ i X i T − α X L X T \mathbf{M} = \sum_{i=1}^n \mathbf{X}_i \tilde{\mathbf{X}}_i^T \left( \tilde{\mathbf{X}}_i \tilde{\mathbf{X}}_i^T + \mu \mathbf{I} \right)^{-1} \tilde{\mathbf{X}}_i \mathbf{X}_i^T - \alpha \mathbf{X} \mathbf{L} \mathbf{X}^T M=i=1nXiX~iT(X~iX~iT+μI)1X~iXiTαXLXT。通过分解 W = U V \mathbf{W} = \mathbf{U} \mathbf{V} W=UV U \mathbf{U} U为选择矩阵, V \mathbf{V} V为正交矩阵),问题转化为:

max ⁡ U , V Tr ⁡ ( V T M ~ V ) , s.t. V T V = I , U ∈ { 0 , 1 } d × p , \max_{\mathbf{U}, \mathbf{V}} \operatorname{Tr}\left( \mathbf{V}^T \tilde{\mathbf{M}} \mathbf{V} \right), \quad \text{s.t.} \quad \mathbf{V}^T \mathbf{V} = \mathbf{I}, \quad \mathbf{U} \in \{0,1\}^{d \times p}, U,VmaxTr(VTM~V),s.t.VTV=I,U{0,1}d×p,

其中 M ~ = U T M U \tilde{\mathbf{M}} = \mathbf{U}^T \mathbf{M} \mathbf{U} M~=UTMU。在特殊情况下,优化可通过选择 M \mathbf{M} M的对角线元素最大的 p p p个索引(通过选择矩阵 U \mathbf{U} U)并对 M ~ \tilde{\mathbf{M}} M~进行特征分解来全局求解,称为非迭代策略(Non-iterative Strategy),在一步内收敛。

2. 一般情况(General Case)

rank ⁡ ( M ) > c \operatorname{rank}(\mathbf{M}) > c rank(M)>c时,论文提出了一种快速迭代策略(Fast Iterative Strategy),通过Schur补 deflation和最小-最大化(Minimization-Majorization)框架优化问题。主要步骤如下:

  1. 初始化:初始化 W 0 \mathbf{W}_0 W0,构造正半定矩阵 M \mathbf{M} M,通过加入 γ I \gamma \mathbf{I} γI γ \gamma γ为主导特征值)确保正半定性。
  2. 迭代更新
    • 计算 Q t = M W t ( W t T M W t ) − 1 W t T M \mathbf{Q}_t = \mathbf{M} \mathbf{W}_t \left( \mathbf{W}_t^T \mathbf{M} \mathbf{W}_t \right)^{-1} \mathbf{W}_t^T \mathbf{M} Qt=MWt(WtTMWt)1WtTM,作为 M \mathbf{M} M的低秩近似,满足 rank ⁡ ( Q t ) ≤ c \operatorname{rank}(\mathbf{Q}_t) \leq c rank(Qt)c且正半定。
    • 使用非迭代策略(Algorithm 1)更新 U \mathbf{U} U(选择 Q t \mathbf{Q}_t Qt对角线最大的 p p p个索引)。
    • 通过对 M ~ = U T M U \tilde{\mathbf{M}} = \mathbf{U}^T \mathbf{M} \mathbf{U} M~=UTMU进行特征分解,直接更新 V \mathbf{V} V(取前 c c c个特征向量)。
    • 更新 W t = U V \mathbf{W}_t = \mathbf{U} \mathbf{V} Wt=UV
  3. 收敛:重复上述步骤直到目标函数值收敛,得到最优 W ∗ \mathbf{W}^* W,非零行的索引对应选择的特征。

快速迭代策略的改进:相比标准迭代策略(使用 Q t \mathbf{Q}_t Qt更新 V \mathbf{V} V),快速迭代策略直接使用 M ~ \tilde{\mathbf{M}} M~进行特征分解,步长更大,加速了收敛。理论证明(Theorem 3)表明,目标函数值单调递增且收敛,实验表明快速策略通常在10次迭代内收敛。

主要贡献点

  1. 局部结构与判别分析结合:提出了一种联合框架,通过局部结构学习(基于KNN的邻居集)和判别分析,捕捉多模态数据的几何结构,优于全局结构方法。
  2. ℓ 2 , 0 \ell_{2,0} 2,0-范数约束:引入 ℓ 2 , 0 \ell_{2,0} 2,0-范数替代 ℓ 2 , 1 \ell_{2,1} 2,1-范数,解决了模糊稀疏性和权衡参数调优问题,获得明确的稀疏子空间,提高特征选择的稳定性和效率。
  3. 新颖优化算法:设计了针对 ℓ 2 , 0 \ell_{2,0} 2,0-范数约束的优化算法,包括非迭代策略(特殊情况)和快速迭代策略(一般情况),提供了严格的收敛性证明,算法高效且适用于其他稀疏子空间学习问题。
  4. 广泛实验验证:在九个数据集上验证了SLUFS的优越性,相比MCFS、UDFS、NDFS等方法,在ACC和NMI指标上表现出更高的准确性和稳定性,尤其在生物数据(如Yeast)和图像数据上。

针对目标函数的局限性及改进意见

尽管该论文提出了创新的方法,但目标函数及优化过程存在一些局限性,以下是分析及改进建议:

局限性
  1. 对邻居集参数 k k k的依赖

    • 局限性:目标函数依赖于KNN构建的邻居集, k k k的选择对局部结构学习的效果有一定影响。尽管实验表明 k k k对性能不敏感(通常设为5),但在某些复杂数据集上,固定 k k k可能无法充分捕捉局部流形结构。
    • 改进建议:引入自适应邻居选择机制,例如基于密度或距离的自适应 k k k,或结合动态图学习方法(如[Nie et al., 2020]的动态最大熵图),以自动调整邻居集的规模和结构。
  2. ℓ 2 , 0 \ell_{2,0} 2,0-范数的计算复杂性

    • 局限性: ℓ 2 , 0 \ell_{2,0} 2,0-范数引入了离散约束,使优化问题成为NP难问题。尽管论文提出了高效的迭代算法,但对于超高维数据( d ≫ 1000 d \gg 1000 d1000),特征选择的计算成本仍然较高。
    • 改进建议:探索近似 ℓ 2 , 0 \ell_{2,0} 2,0-范数的连续化方法(如 capped ℓ 2 , 0 \ell_{2,0} 2,0-范数或软阈值化),以降低计算复杂性,同时保留稀疏性。或者结合随机子空间采样,减少初始特征维度。
  3. 正则化参数的调优

    • 局限性:目标函数包含多个超参数(如 α \alpha α μ \mu μ γ \gamma γ),其中 α \alpha α对谱聚类正则化的影响较大,实验中通过网格搜索确定,但在大规模应用中手动调参不切实际。
    • 改进建议:引入自适应参数学习方法,例如通过最大化数据的互信息或最小化重构误差来自动估计 α \alpha α。对于 γ \gamma γ,可进一步优化其选择规则(如基于矩阵谱范数),减少对主导特征值的依赖。
  4. 对噪声和异常值的鲁棒性不足

    • 局限性:目标函数基于局部散布矩阵和图拉普拉斯矩阵,对噪声和异常值较为敏感,可能导致局部结构失真或特征选择偏差。
    • 改进建议:引入鲁棒性正则化项,例如使用 capped ℓ 2 , 1 \ell_{2,1} 2,1-范数或 Huber 损失来处理异常值,或者在邻居集构建时加入加权机制(如基于 Mahalanobis 距离)以降低噪声影响。
  5. 对多模态数据的适应性有限

    • 局限性:虽然局部结构学习适合多模态数据,但目标函数假设数据点在单一特征空间内,难以直接处理异构数据(如图像+文本)。
    • 改进建议:扩展目标函数到多视图学习框架,引入多视图一致性约束(如 canonical correlation analysis),以同时处理多个特征空间的数据。
改进后的目标函数示例

基于上述改进,假设引入自适应邻居集和鲁棒正则化,一个改进的目标函数可能如下:

max ⁡ W Tr ⁡ ( W T ( ∑ i = 1 n X i X ~ i T ( X ~ i D i X ~ i T + μ I ) − 1 X ~ i X i T − α X L a X T ) W ) − β ∥ W ∥ 2 , 1 , \max_{\mathbf{W}} \operatorname{Tr}\left( \mathbf{W}^T \left( \sum_{i=1}^n \mathbf{X}_i \tilde{\mathbf{X}}_i^T \left( \tilde{\mathbf{X}}_i \mathbf{D}_i \tilde{\mathbf{X}}_i^T + \mu \mathbf{I} \right)^{-1} \tilde{\mathbf{X}}_i \mathbf{X}_i^T - \alpha \mathbf{X} \mathbf{L}_a \mathbf{X}^T \right) \mathbf{W} \right) - \beta \|\mathbf{W}\|_{2,1}, WmaxTr(WT(i=1nXiX~iT(X~iDiX~iT+μI)1X~iXiTαXLaXT)W)βW2,1,

s.t. W T W = I , ∥ W ∥ 2 , 0 = p , \text{s.t.} \quad \mathbf{W}^T \mathbf{W} = \mathbf{I}, \quad \|\mathbf{W}\|_{2,0} = p, s.t.WTW=I,W2,0=p,

其中:

  • D i \mathbf{D}_i Di:自适应加权矩阵,基于数据密度或距离为邻居集分配权重,增强鲁棒性。
  • L a \mathbf{L}_a La:自适应图拉普拉斯矩阵,通过动态图学习(如最大熵图)构建,适应多模态数据。
  • β ∥ W ∥ 2 , 1 \beta \|\mathbf{W}\|_{2,1} βW2,1:附加的 ℓ 2 , 1 \ell_{2,1} 2,1-范数正则化,平衡 ℓ 2 , 0 \ell_{2,0} 2,0-范数的离散性和噪声鲁棒性, β \beta β通过互信息估计。

优化改进

  • 采用交替方向乘子法(ADMM)分解 ℓ 2 , 0 \ell_{2,0} 2,0 ℓ 2 , 1 \ell_{2,1} 2,1约束,降低优化复杂性。
  • 引入随机梯度下降(SGD)变体,适应大规模数据集,减少矩阵分解的计算开销。

这些改进能够增强目标函数的鲁棒性、适应性和计算效率,同时保留论文的核心优势。

总结

该论文通过局部结构学习、 ℓ 2 , 0 \ell_{2,0} 2,0-范数约束和高效优化算法,为无监督特征选择提供了一个创新且实用的框架。其目标函数巧妙结合了判别分析和流形学习,优化过程理论严谨且实验验证充分。针对局限性提出的改进建议可进一步提升方法的适用性和性能,为后续研究提供了明确的方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Christo3

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值