计算高斯混合模型的可分性和重叠度（Overlap Rate, OLR）

最新推荐文章于 2024-11-07 17:46:34 发布

阿拉丁吃米粉

最新推荐文章于 2024-11-07 17:46:34 发布

阅读量1.1w

点赞数 2

文章标签：高斯混合模型 GMM 重叠度高斯混合模型重叠度高斯混合模型可分性

本文链接：https://blog.csdn.net/jinping_shi/article/details/72471641

版权

本文介绍了Haojun Sun提出的计算高斯混合模型（GMM）重叠率（Overlap Rate, OLR）的方法，用于评估GMM聚类的可分性。OLR考虑了高斯混合分布的所有参数，包括均值、协方差和混合系数。当OLR小于0.6时，类别可分性良好，大于0.8则表示严重重叠。文中还给出了算法实现及示例代码，展示了OLR随混合系数和均值间距离的变化曲线。" 105182968,9293917,PAT甲级真题：检查并修改密码,"['c++', '编程语言', '字符串处理']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

本文章实现了Haojun Sun提出的一种计算高斯混合模型（GMM）重叠率的方法（论文：Measuring the component overlapping in the Gaussian mixture model）。这篇文论提出的方法可以计算任意两个混合高斯分布之间的重叠度。该方法可以用来评价GMM模型的好坏，我在我的论文中使用了这个算法，用来评价高斯混合模型聚类的可分性。

关于高斯混合模型（GMM）的相关概念可以参考另一篇博文：高斯混合模型及其EM算法的理解

使用GMM聚类或分析两个高斯混合分布的数据时，我们有时会希望两个高斯分布离得越远越好，这样表示数据才有可分性。但很多情况下两个高斯分布会有重叠。一维和二维的重叠情况如下所示（图片取自作者论文）。

overlap example

我们可以计算一些指标来间接反映两个高斯分布的重叠情况。比如可以计算Mahalanobis距离，Bhattacharyya距离或Kullback-Leibler (KL)距离，可以衡量两个高斯分布的相似性。但是Mahalanobis距离预设两个分布具有相同的协方差，Bhattacharyya距离和KL距离都考虑了协方差，但却没有考虑高斯混合分布的混合系数（mixing coefficient）。而且KL距离对高维的正态分布没有解析解，计算复杂。

这篇论文提出的计算OLR的方法考虑了高斯混合分布中的所有参数，包括均值，协方差和混合系数。

OLR计算

假设有 $n$ 个 $d$ 维的样本 $\boldsymbol{X} = \{X_1,..., X_n\}$ . 其中 $X_i$ 是一个 $d$ 维向量。一个混合高斯模型的pdf可以表示为：
$\sum_{i=1}^k \alpha_iG_i(X, \mu_i, \Sigma_i) \tag{1}$
其中 $\alpha_i$ 是混合系数，满足 $\alpha_i > 0$ 且 $\sum_{i=1}^k\alpha_i=1$ .

$G_i(X)$ 是一个 $d$ 维高斯分布，可以表示为下面的形式：
$G_i(X) = \frac{1}{(2\pi)^{d/2} |\Sigma_i|^{1/2}} \exp \left( \frac{1}{2} (X-\mu_i)^T \Sigma_i^{-1}(X-\mu_i)\right) \tag{2}$

以二维高斯分布为例。当两个高斯分布有重叠时，会形成鞍状。如上图的d和e，二维高斯分布混合时会出现两个峰和一个鞍部；当两个分布几乎完全混合时，鞍部可能消失，但峰还在，此时明显的峰只有一个，如上图中的f。

论文中的两个高斯分布的OLR定义如下：
$OLR(G_1, G_2) = \begin{cases} 1 &\text{if $p(X)$ has one peak} \\ \frac{p(X_{saddle})}{p(X_{submax})} &\text{if $p(X)$ has two peaks} \end{cases} \tag{3}$