PR-2023《local clustering and unsupervised feature selection via strong space constraint》-CSDN博客

本文链接：https://blog.csdn.net/weixin_41552975/article/details/147669075

`推荐一个机器学习前沿公众号，第一时间获取最有价值的前沿机器学习文章。`

在这里插入图片描述

核心思想分析

该论文提出了一种新的无监督特征选择（Unsupervised Feature Selection, UFS）方法，称为SLUFS（Simultaneous Local clustering and Unsupervised Feature Selection）。其核心思想是将局部结构学习（Local Structure Learning）与判别分析（Discriminative Analysis）结合，通过引入 $\ell_{2,0}$ -范数约束来实现结构化的稀疏子空间学习，从而同时完成聚类和特征选择。主要解决的问题包括：

高维数据挑战：高维数据对聚类任务构成障碍，传统的UFS方法通常使用 $\ell_{2,1}$ -范数进行稀疏学习，但其稀疏性依赖于权衡参数的设置，导致特征选择的不稳定性和模糊稀疏性。
全局结构不足：全局结构分析难以捕捉多模态数据的几何结构，局部结构学习能够更好地利用数据的局部流形结构。
稀疏性改进：通过 $\ell_{2,0}$ -范数约束替代 $\ell_{2,1}$ -范数，获得明确的稀疏子空间，避免手动特征排序和调参的麻烦，提高特征选择的稳定性和模型性能。

该方法通过局部判别分析、谱聚类正则化和 $\ell_{2,0}$ -范数约束，构建了一个统一的框架，既保留数据的局部流形结构，又增强了特征选择的判别能力。

目标函数分析

论文的目标函数旨在最大化局部判别分析的迹，同时引入谱聚类正则化项和 $\ell_{2,0}$ -范数约束，确保稀疏性和正交性。其最终目标函数形式如下：

$\max_{\mathbf{W}} \operatorname{Tr}\left(\mathbf{W}^T \left( \sum_{i=1}^n \mathbf{X}_i \tilde{\mathbf{X}}_i^T \left( \tilde{\mathbf{X}}_i \tilde{\mathbf{X}}_i^T + \mu \mathbf{I} \right)^{-1} \tilde{\mathbf{X}}_i \mathbf{X}_i^T - \alpha \mathbf{X} \mathbf{L} \mathbf{X}^T \right) \mathbf{W} \right),$

$\text{s.t.} \quad \mathbf{W}^T \mathbf{W} = \mathbf{I}, \quad \|\mathbf{W}\|_{2,0} = p,$

其中：

$\mathbf{W} \in \mathbb{R}^{d \times c}$ ：特征选择矩阵，表示子空间投影矩阵。
$\mathbf{X}_i$ ：样本 $i$ 的邻居集（Neighbor Set, NSet）矩阵，通过 $k$ 近邻（KNN）构建。
$\tilde{\mathbf{X}}_i$ ：样本 $i$ 的中心化邻居集矩阵。
$\mathbf{S}_t^{(i)} = \tilde{\mathbf{X}}_i \tilde{\mathbf{X}}_i^T$ ：样本 $i$ 的邻居集的总散布矩阵。
$\mathbf{S}_b^{(i)} = \tilde{\mathbf{X}}_i \mathbf{F}_i \mathbf{F}_i^T \tilde{\mathbf{X}}_i^T$ ：样本 $i$ 的邻居集的类间散布矩阵， $\mathbf{F}_i$ 为伪聚类指示矩阵。
$\mu$ ：正则化参数，避免矩阵奇异。
$\alpha$ ：谱聚类正则化项的权衡参数， $\mathbf{L}$ 为图拉普拉斯矩阵， $\mathbf{X} \mathbf{L} \mathbf{X}^T$ 捕捉数据的全局流形结构。
$\mathbf{W}^T \mathbf{W} = \mathbf{I}$ ：正交约束，避免任意缩放。
$\|\mathbf{W}\|_{2,0} = p$ ： $\ell_{2,0}$ -范数约束，确保 $\mathbf{W}$ 中只有 $p$ 个非零行，对应选择的特征数量。

目标函数组成：

局部判别分析项： $\sum_{i=1}^n \operatorname{Tr}\left( \left( \mathbf{S}_t^{(i)} + \mu \mathbf{I} \right)^{-1} \mathbf{S}_b^{(i)} \right)$ ，通过最大化类间散布与总散布的比率，增强子空间的判别能力。
谱聚类正则化项： $-\alpha \operatorname{Tr}\left( \mathbf{W}^T \mathbf{X} \mathbf{L} \mathbf{X}^T \mathbf{W} \right)$ ，利用图拉普拉斯矩阵保留数据的全局几何结构，防止局部邻居集重叠导致的过拟合。
稀疏约束： $\ell_{2,0}$ -范数确保选择固定数量 $p$ 的特征，形成明确的稀疏子空间。

目标函数优化过程分析

优化目标函数是一个NP难的整数规划问题，由于 $\ell_{2,0}$ -范数的离散性质，直接求解具有挑战性。论文提出了一种新颖的优化算法，分为特殊情况和一般情况两种策略：

1. 特殊情况（Special Cases）

当 $\|\mathbf{W}\|_{2,0} = p = c$ 或 $\operatorname{rank}(\mathbf{M}) \leq c$ 时，优化问题可简化为：

$\max_{\mathbf{W}} \operatorname{Tr}\left( \mathbf{W}^T \mathbf{M} \mathbf{W} \right), \quad \text{s.t.} \quad \mathbf{W}^T \mathbf{W} = \mathbf{I}, \quad \|\mathbf{W}\|_{2,0} = p,$

其中 $\mathbf{M} = \sum_{i=1}^n \mathbf{X}_i \tilde{\mathbf{X}}_i^T \left( \tilde{\mathbf{X}}_i \tilde{\mathbf{X}}_i^T + \mu \mathbf{I} \right)^{-1} \tilde{\mathbf{X}}_i \mathbf{X}_i^T - \alpha \mathbf{X} \mathbf{L} \mathbf{X}^T$ 。通过分解 $\mathbf{W} = \mathbf{U} \mathbf{V}$ （ $\mathbf{U}$ 为选择矩阵， $\mathbf{V}$ 为正交矩阵），问题转化为：

$\max_{\mathbf{U}, \mathbf{V}} \operatorname{Tr}\left( \mathbf{V}^T \tilde{\mathbf{M}} \mathbf{V} \right), \quad \text{s.t.} \quad \mathbf{V}^T \mathbf{V} = \mathbf{I}, \quad \mathbf{U} \in \{0,1\}^{d \times p},$

其中 $\tilde{\mathbf{M}} = \mathbf{U}^T \mathbf{M} \mathbf{U}$ 。在特殊情况下，优化可通过选择 $\mathbf{M}$ 的对角线元素最大的 $p$ 个索引（通过选择矩阵 $\mathbf{U}$ ）并对 $\tilde{\mathbf{M}}$ 进行特征分解来全局求解，称为非迭代策略（Non-iterative Strategy），在一步内收敛。

2. 一般情况（General Case）

当 $\operatorname{rank}(\mathbf{M}) > c$ 时，论文提出了一种快速迭代策略（Fast Iterative Strategy），通过Schur补 deflation和最小-最大化（Minimization-Majorization）框架优化问题。主要步骤如下：

初始化：初始化 $\mathbf{W}_0$ ，构造正半定矩阵 $\mathbf{M}$ ，通过加入 $\gamma \mathbf{I}$ （ $\gamma$ 为主导特征值）确保正半定性。
迭代更新：
- 计算 $\mathbf{Q}_t = \mathbf{M} \mathbf{W}_t \left( \mathbf{W}_t^T \mathbf{M} \mathbf{W}_t \right)^{-1} \mathbf{W}_t^T \mathbf{M}$ ，作为 $\mathbf{M}$ 的低秩近似，满足 $\operatorname{rank}(\mathbf{Q}_t) \leq c$ 且正半定。
- 使用非迭代策略（Algorithm 1）更新 $\mathbf{U}$ （选择 $\mathbf{Q}_t$ 对角线最大的 $p$ 个索引）。
- 通过对 $\tilde{\mathbf{M}} = \mathbf{U}^T \mathbf{M} \mathbf{U}$ 进行特征分解，直接更新 $\mathbf{V}$ （取前 $c$ 个特征向量）。
- 更新 $\mathbf{W}_t = \mathbf{U} \mathbf{V}$ 。
收敛：重复上述步骤直到目标函数值收敛，得到最优 $\mathbf{W}^*$ ，非零行的索引对应选择的特征。

快速迭代策略的改进：相比标准迭代策略（使用 $\mathbf{Q}_t$ 更新 $\mathbf{V}$ ），快速迭代策略直接使用 $\tilde{\mathbf{M}}$ 进行特征分解，步长更大，加速了收敛。理论证明（Theorem 3）表明，目标函数值单调递增且收敛，实验表明快速策略通常在10次迭代内收敛。

主要贡献点

局部结构与判别分析结合：提出了一种联合框架，通过局部结构学习（基于KNN的邻居集）和判别分析，捕捉多模态数据的几何结构，优于全局结构方法。
$\ell_{2,0}$ -范数约束：引入 $\ell_{2,0}$ -范数替代 $\ell_{2,1}$ -范数，解决了模糊稀疏性和权衡参数调优问题，获得明确的稀疏子空间，提高特征选择的稳定性和效率。
新颖优化算法：设计了针对 $\ell_{2,0}$ -范数约束的优化算法，包括非迭代策略（特殊情况）和快速迭代策略（一般情况），提供了严格的收敛性证明，算法高效且适用于其他稀疏子空间学习问题。
广泛实验验证：在九个数据集上验证了SLUFS的优越性，相比MCFS、UDFS、NDFS等方法，在ACC和NMI指标上表现出更高的准确性和稳定性，尤其在生物数据（如Yeast）和图像数据上。

针对目标函数的局限性及改进意见

尽管该论文提出了创新的方法，但目标函数及优化过程存在一些局限性，以下是分析及改进建议：

局限性

对邻居集参数 $k$ 的依赖：
- 局限性：目标函数依赖于KNN构建的邻居集， $k$ 的选择对局部结构学习的效果有一定影响。尽管实验表明 $k$ 对性能不敏感（通常设为5），但在某些复杂数据集上，固定 $k$ 可能无法充分捕捉局部流形结构。
- 改进建议：引入自适应邻居选择机制，例如基于密度或距离的自适应 $k$ ，或结合动态图学习方法（如[Nie et al., 2020]的动态最大熵图），以自动调整邻居集的规模和结构。
$\ell_{2,0}$ -范数的计算复杂性：
- 局限性： $\ell_{2,0}$ -范数引入了离散约束，使优化问题成为NP难问题。尽管论文提出了高效的迭代算法，但对于超高维数据（ $\gg 1000$ ），特征选择的计算成本仍然较高。
- 改进建议：探索近似 $\ell_{2,0}$ -范数的连续化方法（如 capped $\ell_{2,0}$ -范数或软阈值化），以降低计算复杂性，同时保留稀疏性。或者结合随机子空间采样，减少初始特征维度。
正则化参数的调优：
- 局限性：目标函数包含多个超参数（如 $\alpha$ 、 $\mu$ 、 $\gamma$ ），其中 $\alpha$ 对谱聚类正则化的影响较大，实验中通过网格搜索确定，但在大规模应用中手动调参不切实际。
- 改进建议：引入自适应参数学习方法，例如通过最大化数据的互信息或最小化重构误差来自动估计 $\alpha$ 。对于 $\gamma$ ，可进一步优化其选择规则（如基于矩阵谱范数），减少对主导特征值的依赖。
对噪声和异常值的鲁棒性不足：
- 局限性：目标函数基于局部散布矩阵和图拉普拉斯矩阵，对噪声和异常值较为敏感，可能导致局部结构失真或特征选择偏差。
- 改进建议：引入鲁棒性正则化项，例如使用 capped $\ell_{2,1}$ -范数或 Huber 损失来处理异常值，或者在邻居集构建时加入加权机制（如基于 Mahalanobis 距离）以降低噪声影响。
对多模态数据的适应性有限：
- 局限性：虽然局部结构学习适合多模态数据，但目标函数假设数据点在单一特征空间内，难以直接处理异构数据（如图像+文本）。
- 改进建议：扩展目标函数到多视图学习框架，引入多视图一致性约束（如 canonical correlation analysis），以同时处理多个特征空间的数据。

改进后的目标函数示例

基于上述改进，假设引入自适应邻居集和鲁棒正则化，一个改进的目标函数可能如下：

$\max_{\mathbf{W}} \operatorname{Tr}\left( \mathbf{W}^T \left( \sum_{i=1}^n \mathbf{X}_i \tilde{\mathbf{X}}_i^T \left( \tilde{\mathbf{X}}_i \mathbf{D}_i \tilde{\mathbf{X}}_i^T + \mu \mathbf{I} \right)^{-1} \tilde{\mathbf{X}}_i \mathbf{X}_i^T - \alpha \mathbf{X} \mathbf{L}_a \mathbf{X}^T \right) \mathbf{W} \right) - \beta \|\mathbf{W}\|_{2,1},$

$\text{s.t.} \quad \mathbf{W}^T \mathbf{W} = \mathbf{I}, \quad \|\mathbf{W}\|_{2,0} = p,$

其中：

$\mathbf{D}_i$ ：自适应加权矩阵，基于数据密度或距离为邻居集分配权重，增强鲁棒性。
$\mathbf{L}_a$ ：自适应图拉普拉斯矩阵，通过动态图学习（如最大熵图）构建，适应多模态数据。
$\beta \|\mathbf{W}\|_{2,1}$ ：附加的 $\ell_{2,1}$ -范数正则化，平衡 $\ell_{2,0}$ -范数的离散性和噪声鲁棒性， $\beta$ 通过互信息估计。