（简单易懂）Gaussian Mixed Model 高斯混合模型

ismiaodh

已于 2024-05-06 18:22:00 修改

阅读量1.5k

点赞数 28

分类专栏： DL基础文章标签：概率论机器学习算法 python 神经网络人工智能数据挖掘

于 2024-05-05 16:51:10 首次发布

本文链接：https://blog.csdn.net/qq_39214409/article/details/138469216

版权

本文详细介绍了高斯混合模型，包括高斯分布的基础概念，多维数据的高斯分布，以及如何通过EM算法学习模型参数。重点讲解了如何使用似然估计和EM步骤（E-step和M-step）来确定GMM的均值、协方差和权重。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Gaussian Mixed Model 高斯混合模型

文章目录

Gaussian Mixed Model 高斯混合模型

1.高斯分布

在这里插入图片描述

Figure 1:高斯分布

高斯分布（正态分布）是统计学常见的分布之一，它在自然界以及社会科学中被广泛使用。高斯分布是连续型的概率分布，其分布曲线呈现对称状。它具有很多重要的性质，其中最重要的是中心极限定理，它表明许多独立随机变量的均值将近似地服从高斯分布，即使这些变量本身不服从高斯分布。

对于一维数据 $x$ ，高斯分布的概率密度函数如Fig. 1：
$P(x|\theta)=\mathcal{N}(x;\mu,\sigma^2)=\frac1{\sqrt{2\pi\sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2}) \tag{1}$
对于多维数据 $x\in \mathbb{R}^D$ ，高斯分布的概率密度函数如下：
$P(x|\theta)=\frac1{(2\pi)^{\frac D2}|\Sigma|^{\frac12}}exp(-\frac{(x-\mu)^T\Sigma^{-1}(x-\mu)}2) \tag{2}$
其中， $\theta$ 表示参数 $\mu$ （均值）、 $\sigma$ （标准差）等参数， $\Sigma$ 代表协方差。

2.高斯混合分布

在这里插入图片描述

Figure 2:高斯混合分布

如Fig. 2，高斯混合分布可以直观的理解为K个高斯分布混合得到的一种分布，且每个高斯分布被称为一个“分量”。每个分量由其自身的均值和协方差参数化。高斯混合模型的意义在于它能够灵活地拟合各种类型的数据分布，因为它可以由多个高斯分布组合而成。作为生成式模型，高斯混合模型可以拟合数据的分布，也可以根据分布生成新样本。这使得它在处理复杂的数据集时具有较好的表现。高斯混合模型也可以用于聚类任务，其中每个分量可以被视为一个聚类中心。

高斯混合分布的概率密度函数如下：
$p(x)=\sum_{i=1}^K\pi_i\mathcal{N}(x\mid\pi_i,\Sigma_i) \tag{3}$