【Estimation of the Number of Clusters】X-means in ICML 2000 个人理解

Fulin_Gao

已于 2023-07-19 09:00:09 修改

阅读量303

点赞数 3

分类专栏： Estimation Cluster Number 文章标签：聚类 k-means

于 2023-06-02 19:42:23 首次发布

本文链接：https://blog.csdn.net/beginner1207/article/details/131009510

版权

Estimation Cluster Number 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

X-means算法是K-means的一种扩展，主要用于自动估计无标签数据的类别数量。它通过在现有簇上应用K-means并比较分割前后的BIC（贝叶斯信息准则）分数来决定是否继续分割。算法从预设的最小类别数开始，不断尝试分割簇，直到BIC分数不再增加或达到预设的最大类别数。BIC用于平衡模型复杂度和拟合优度，帮助确定最佳的簇数量。

摘要由CSDN通过智能技术生成

一、简介

题目： X-means: Extending K-means with Efficient Estimation of the Number of Clusters
会议： ICML 2000
任务： 估计无标签数据的类别数量并聚类。
Idea： 给定预估的类别数上下界，从下界开始做一次 $k$ -means，再对每个簇进行 $k$ -means（ $k = 2$ ），之后通过贝叶斯信息准则（Bayesian Information Criterion, BIC）判断 $k$ 应该等于2还是1，如此往复直至 $k$ 不再增加或到达上界。

二、详情

x-means
如图，X-means通过将现有簇一分为二并对比前后BIC分数来确定当前簇是否应该被分割。

1. 算法步骤

输入：无标签数据 $D$ ，预估类别数上下界限 $K_{\max}$ 和 $K_{\min}$ 。
输出：预测的类别数量和聚类结果。
（1）初始化 $k_{new}=K_{\min}$ ；
（2）设定 $k=k_{new}$ ，执行一次 $k$ -means，形成 $k_{new}$ 个簇；
（3）对于每个簇，计算它们当前的BIC值（计算方法见下一节）；
（4）在每个簇上，设定 $k = 2$ ，执行 $k$ -means，每个簇都被分割为2个新簇；
（5）对于每个新簇对（一对新簇是指分割自同一簇的两个新簇），计算它们的BIC值；
（6）比较（3）和（5）得到的BIC值，对于一个簇来说，如果后者BIC值更大，则应该对其进行分割，于是 $k_{new}=k_{new}+1$ ；
（7）如果（6）中 $k_{new}$ 没有增加或 $k_{new}\geq K_{\max}$ 则算法终止；否则，转（2）。