x-means简介

最新推荐文章于 2023-06-02 19:42:23 发布

nana-li

最新推荐文章于 2023-06-02 19:42:23 发布

阅读量6.9k

点赞数 1

分类专栏： Machine Learning 文章标签： X-means

Machine Learning 专栏收录该内容

52 篇文章 23 订阅

订阅专栏

转载自https://www.cnblogs.com/porco/p/xmeans_intro.html，后续有时间看完原论文后再更新，先占坑。

本文基于《X-means》和《BIC-notes》（原论文中BIC公式有误，这是对BIC的补充）

K-means的缺点

每一轮迭代的计算花费大
需要用户指定K
易于收敛到局部最优解

X-means的改进

使用kd-tree加速原K-means的每一轮迭代
用户指定K所属的范围，根据BIC score选到最优K
每一轮迭代只进行2-means（2-means对局部最优解不敏感）

X-means算法步骤

算法

用户输入 $k_{min}$ , $k_{max}$ ，数据集 $D$
1、运行 $K_{min}-means$ 。
2、在每个聚类上，运行2-means。
3、根据BIC score（只在该聚类上计算，即只计算本聚类数据只分成1类和两类时的BIC score）决定是否二分聚类。
4、如果 $K<K_{max}$ ，继续进行步骤2，否则返回结果。

样例
1、首先将DD分成3个聚类
2、再将每个子聚类分成2个聚类
3、计算BIC score决定是否二分
这里写图片描述

BIC score(Bayesian Information Criterion)

$BIC(ϕ)=\hat{l_ϕ}(D)−\frac{p_ϕ}{2}⋅logR$
其中 $ϕ$ 表示模型， $\hat{l_ϕ}(D)$ 为likelihood， ${p_ϕ}$ 为模型的复杂度（自由参数个数）
X-means的假设：identical spherical assumption
数据由 $X$ 个高斯函数产生，每个高斯函数有一样的方差 $σ$ (每个维度上的变量不相关，协方差矩阵为diag(σ))、不同的 $μ_i$ ；
数据生成时，根据概率 $p_i$ 选择一个高斯函数 $g_i$ ，然后生成一个点。
所以似然函数为：
$l_ϕ(D)=\sum_{i=1}^{R}[log p(g_{(i)})+log p(x_i)]$
其中 $p(g_{(i)})$ 为生成点 $x_i$ 的高斯函数被选到的概率。
计算BIC，需要计算最大化的 $\hat{l_ϕ}(D)$ ,所以需要对参数进行估计
$p(g_k)=\frac{R_k}{R}$
$σ^2=\frac{1}{MR}\sum_{k=1}^{K}\sum_{x_i \in D_k}^{ }∥x_i−μ_k∥^2$
文中使用无偏估计，即 $σ^2=\frac{1}{M(R-K)}\sum_{k=1}^{K}\sum_{x_i \in D_k}^{ }∥x_i−μ_k∥^2$
$p_ϕ$ 自由参数个数
K-1个高斯函数选择到的概率，MK 个每个高斯函数每个维度上的mean，1个方差
所以 $p_ϕ=(M+1)K$

nana-li

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
4
评论
x-means简介

转载自https://www.cnblogs.com/porco/p/xmeans_intro.html，后续有时间看完原论文后再更新，先占坑。本文基于《X-means》和《BIC-notes》（原论文中BIC公式有误，这是对BIC的补充）K-means的缺点每一轮迭代的计算花费大需要用户指定K易于收敛到局部最优解X-means的改进使用kd-tree加速原K-mea...
复制链接

扫一扫

专栏目录