【Estimation of the Number of Clusters】PG-means: learning the number of clusters in data in NIPS 个人理解

最新推荐文章于 2024-09-05 10:03:06 发布

Fulin_Gao

最新推荐文章于 2024-09-05 10:03:06 发布

阅读量126

点赞数

分类专栏： Estimation Cluster Number 文章标签：聚类

本文链接：https://blog.csdn.net/beginner1207/article/details/131294319

版权

Estimation Cluster Number 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、简介

题目： PG-means: learning the number of clusters in data
会议： NIPS 2006
任务： 估计无标签数据的类别数量 $k$ 并聚类。
Idea： 最初给定一个较小的 $k$ （最小为1）在原始无标签数据上拟合高斯混合模型（gaussian mixture model, GMM）；将无标签数据和GMM的参数（均值、斜方差）映射为一维，然后基于映射后的GMM参数进行采样；之后使用Kolmogorov-Smirnov (KS) test检验映射后的数据和采样是否匹配，若匹配，则迭代终止，否则，令 $k\!=\!k\!+\!1$ 更新GMM并陆续进行映射、采样、检验。
Code： GitHub
Note： 虽然该方法叫PG-means，但与X-means和G-means基于 $k$ -means不同，它是基于GMM的。

如图，为PG-means的算法流程，下节做详细介绍。

二、详情

1. 算法步骤

输入：无标签数据 $\{\pmb X\}_{d\times n}$ （ $n$ 是样本数， $d$ 是样本维度），置信阈值 $\alpha$ ，映射次数 $p$ 。
输出：预测的类别数量和聚类结果。
（1）初始化 $k = 1$ ；
（2）在 $\pmb X$ 上根据 $k$ 拟合GMM，GMM中有 $k$ 个均值 $\{\pmb\mu\}_{d\times 1}$ 和协方差 $\{\pmb\Sigma\}_{d\times d}$ ；
（3）随机取 $p$ 个与 $\pmb x_{*j}\!\in\!\pmb X$ 维度相同的映射向量 $\{\pmb p_i\}_{d\times 1}$ ，每次取一个 $pi \pmb p_i$ ，共取 $p$ 次;
   每次循环，将 $\pmb X$ 映射为 $\{\pmb X_i^\prime\}_{1\times n}=\pmb p^T_i\pmb X$ ，将GMM中的 $k$ 个均值 $\pmb\mu$ 和协方差 $\pmb\Sigma$ 分别映射为 $k$ 个 $\{\mu^{\prime}_i\}_{1\times 1}$ 和 $\{\Sigma^{\prime}_i\}_{1\times 1}$ （ $\mu_i^{\prime}=\pmb p^T_i\pmb\mu, \Sigma_i^{\prime}=\pmb p^T_i\pmb\Sigma\pmb p_i$ ）；
   若 $k$ 是合理的，则映射后的 $Xi′ \pmb X_i^\prime$ 应服从 $k$ 个 $N(\mu_i^{\prime},\Sigma_i^{\prime})$ 的组合分布，所以假设基于映射后的GMM（其参数为映射后的 $k$ 个均值和协方差）进行 $n$ 次采样得到的数据与映射后的数据 $Xi′ \pmb X_i^\prime$ 匹配；
   使用Kolmogorov-Smirnov (KS) test对 $Xi′ \pmb X_i^\prime$ 和采样数据进行匹配检验，若 $p$ 次检验值均高于置信阈值 $\alpha$ ，则程序终止，否则进入（4）；
（4）没通过检验，说明 $k$ 不合适，令 $k\!=\!k\!+\!1$ ，转（2）。

2. 新簇参数

为了加快收敛速度，由步骤（4）转步骤（2）时，旧簇的均值和协方差被保留，新簇的协方差初始化为旧簇的协方差的平均，新簇的均值有如下两种方式进行选取：
（1）随机选取一个样本作为均值；
（2）选取概率密度低的样本作为均值。
作者使用上述方式各5次，进行GMM的拟合，每次GMM经EM算法迭代会有一个最佳拟合的对数似然下界值，直白来说就是对模型有一个自我的评估值，最后取最高的评估值对应的GMM。

Fulin_Gao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
【Estimation of the Number of Clusters】PG-means: learning the number of clusters in data in NIPS 个人理解

估计无标签数据的类别数量k并聚类。
复制链接

扫一扫