鲁棒的多核 K-means算法(Robust Multiple Kernel K-means Clustering, RMKKMC)是一种结合了多核学习和K-means聚类算法的高级数据聚类技术旨在提高对噪声和异常值的鲁棒性

与传统的K-means算法相比,RMKKMC通过使用多个核函数来捕捉数据的多重视角,从而增强模型的灵活性和准确性。此外,它还引入了鲁棒性措施,以减轻异常值的影响。

RMKKMC 的目标函数

RMKKMC 的目标函数通常涉及最小化一个包含数据点到聚类中心距离核函数权重的损失函数同时最大化数据点间的相似度

为了增加鲁棒性,还会加入一个鲁棒性项,通常是基于M估计器Huber损失函数。

目标函数的一般形式可以写作:

基于多核学习的多视图学习——分组最小角回归(Group Lasso)_核函数

公式解析:
  • 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_数据挖掘_02 : 这是一个聚类分配矩阵,其中 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_数据挖掘_03 表示第 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_回归_04 个数据点分配给第 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_核函数_05 个聚类的程度。在硬聚类中, 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_数据挖掘_03
  • 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_核函数_07 : 这是一个聚类中心矩阵,其中 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_数据挖掘_08 表示第 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_核函数_05
  • 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_核函数_10 : 这是一个权重向量,其中 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_核函数_11 表示第 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_聚类_12 个核函数的权重。
  • 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_数据挖掘_13 : 这是核函数的总数
  • 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_回归_14 : 这是使用第 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_聚类_12 个核函数计算的第 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_回归_04 个数据点和第 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_核函数_05 个聚类中心之间的距离或不相似度。
  • 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_回归_18 : 这是一个鲁棒损失函数,如Huber损失或Tukey损失,用于减轻异常值的影响。
  • 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_聚类_19
  • 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_学习_20 : 这是一个正则化项,用于防止过拟合并促进权重向量的稀疏性或平滑性,如 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_学习_21 范数或 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_聚类_22
RMKKMC 的优化

RMKKMC 的优化通常是一个复杂的非凸优化问题,可以通过交替优化策略来求解,即交替更新聚类分配矩阵 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_回归_23 、聚类中心 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_回归_24 和核函数权重 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_回归_25

鲁棒损失函数

鲁伯恩损失函数 基于多核学习的多视图学习——分组最小角回归(Group Lasso)_数据挖掘_26 的选择是鲁棒多核K-means算法的关键,常见的鲁棒损失函数包括:

  • Huber损失: 结合了平方损失和绝对值损失的优点,对于远离中心点的数据点,损失函数变为线性的,从而减轻异常值的影响。
  • Tukey损失: 又称为双曲正切损失,对于超出一定范围的数据点,损失函数趋于恒定,进一步增强了对异常值的鲁棒性。
RMKKMC 的优点
  • 通过使用多个核函数,RMKKMC 能够从不同的角度分析数据,提高了聚类的准确性和鲁棒性。
  • 引入鲁棒性措施,使得算法对噪声和异常值具有更好的抵抗能力。
  • 通过学习核函数的权重,RMKKMC 自动选择对聚类最有贡献的核函数,减少了人为干预的需要。
应用场景

RMKKMC 在处理高维数据、含有噪声或异常值的数据集时尤为有用,例如在生物信息学、图像分析、文本分类等领域中。

通过其鲁棒性和多核学习的能力,RMKKMC 能够提供更高质量的聚类结果。