高斯混合模型

最新推荐文章于 2024-07-16 17:56:45 发布

你今天机器学习了么

最新推荐文章于 2024-07-16 17:56:45 发布

阅读量1k

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/None_Pan/article/details/106294484

版权

高斯混合模型是一种概率模型，用于表示总体中正态分布的子种群。混合模型通常不需要知道数据点属于哪个子种群，从而允许模型自动学习这些子种群。由于子种群分配是未知的，因此这构成了无监督学习的一种形式。

例如，在对人类身高数据进行建模时，通常将身高建模为每个性别的正态分布，男性的平均值约为5’10“，女性的平均值约为5’5”。仅给出高度数据，而不给出每个数据点的性别分配，所有高度的分布将遵循两个缩放（不同方差）和偏移（不同均值）正态分布之和。进行此假设的模型是高斯混合模型（GMM）的示例，尽管通常GMM可能包含两个以上的组件。在使用GMM建模数据时，估计各个正态分布分量的参数是一个典型问题。

GMM已用于从语音数据中提取特征，并且还广泛用于多个对象的对象跟踪，其中混合成分的数量及其均值可预测视频序列中每个帧的对象位置。

动机
由于数据看起来是多峰的，即数据分布中有多个“峰值”。尝试用单峰（一个“峰”）模型拟合多峰分布通常会导致拟合不佳，如以下示例所示。由于许多简单分布都是单峰分布，因此对多峰分布进行建模的一种明显方法是假定它是由多个单峰分布生成的。由于一些理论上的原因，在模拟现实世界单峰数据中最常用的分布是高斯分布。因此，将多峰数据建模为许多单峰高斯分布的混合是直观的。此外，GMM保留了高斯模型的许多理论和计算优势，使其对于有效地对大型数据集进行建模非常实用。
在这里插入图片描述
高斯混合模型由两种类型的值参数化，即混合成分权重以及成分均值和方差/协方差。
一维模型：

二维模型：

如果元素数K是已知的，期望最大化是最常用于估计混合模型参数的技术。在频繁概率论中，通常通过使用最大似然估计技术来学习模型，该技术试图在给定模型参数的情况下最大化观测数据的概率或似然性。不幸的是，通过区分对数似然并求解来找到混合模型的最大似然解。
在分析上，0通常是不可能的。