GMM 与 KDE 区别与联系

最新推荐文章于 2024-01-21 21:54:35 发布

omadesala

最新推荐文章于 2024-01-21 21:54:35 发布

阅读量3.7k

点赞数 2

分类专栏：基础概念文章标签：高斯混合模型概率密度估计 GMM KDE Parzen

本文链接：https://blog.csdn.net/omade/article/details/17145281

版权

基础概念专栏收录该内容

13 篇文章 4 订阅

订阅专栏

GMM 与 KDE 区别与联系

对拿到的一堆数据，可以通过KDE方法来估计概率密度，Parzen 窗方法通过使用不同的窗口作为基底，用函数逼近的思路来逼近真实的分布函数,混合高斯模型，同样也用了多个高斯分布做了线性组合来拟合隐含的分布，看起来高斯混合模型也可以用来做概率密度估计，那么到底这两者之间是否是相似的呢？又或者有什么不同呢先来看他们各自的公式

混合高斯模型：

$f(x)=\sum_{k=0}^{N}w_kp_k(x)$

其中 N 表示 Component 的个数，也就是由多少个高斯分布来进行混合， $w_k$ 表示每一个Component的权重，它是一个概率意义上的量，代表了一个观测数据由第i个Component生成的概率，因此

$\sum_{k=0}^{N} w_k=1$

其中， $p_k(x)$ 代表了第k个Component的概率密度函数

从这个公式上面可以看到，一般高斯混合模型的用途是用来做分类判别用，第k个Component代表了第k类，如果我们已经有了第k类的信息，那么我们就可以判定一个数据是属于第k类的概率，这个概率值就是 $w_k$ ，因此对K个可能的分类，我们就会得到把当前的数据分类到第k类的概率为 $w_k$ 。

用高斯模型的线性组合来拟合未知的分布，有研究表明有过拟合的问题存在，物理意义并不明显，不像KDE有窗的概念，有窗的宽度等东西，因此他们的解释是不一样的

KDE 的概念是从直方图的概率中过度来的，我们看看KDE的定义是如何得到的

我们以一维的情况来举例，假设在某未知分布 $f(x)$ 下，观测了N次得到N个结果 $X_1,X_2,...X_n$ ,这是为了保证这N个数据是独立同分布的。我们考察一个给定的区间R在这N个数据中，有K个落在R中的情况，很明显，这属于二项分布的情况

$P_k=\begin{pmatrix}N\\k \end{pmatrix}p^{k}(1-p)^{N-k}$

k 的期望值是

$E[k]=nP$

其中P是，

$P= \int_R p(x)dx$

可以这么来理解k的期望，就是一共有N个数据，区间R中有k个的平均值就是nP，这是二项分布的特点 ,因此因此我们可以用下面的公式来估计k

$E[k]= \hat{k} = nP$

对这个公式进行一下变形，得到如下公式

$P=\frac{\hat{k}}{n}$

这就可以是k的一个概率估计，当样本数n很大的时候，这个估计就越准确

现在假设区域R足够小，然后在R的这个小区域里面，p(x)的值变化都非常小，可以近似相等，那么 $x'$ 在R中取值，我们可以计算这个R区间内的面积,也就是有k个数据在R中的概率

$P=\int_{R}p(x')dx'=p(x)R=p(x)V=\frac{k}{n}$

这里的R本身就代表了区间的长度，但是为了扩展到更高纬度的方便，这里用体积V来表示，一维的情况下是长度，二维情况下是面积，三维情况下是体积，对N维情况下就要用到测度来表示了，测度其实就是一种更严格的定义的关于不同维度下的“体积“的一种度量。

为了得到概率密度的表达式，我们只需要把上面等式的后面部分做一个变形就可以得到：

$p(x)=\frac{k/V}{n}=\frac{P}{V}=\frac{\int_{R}p(x')dx'}{V} = \frac{\int_{R}p(x')dx'}{\int_Rx}$

现在来看这里得到的理论结果：假设有一系列包含x的区域 $R_1,R_2,R_3,...R_n$ ,对 $R_1$ 采用一个样本进行估计，对 $R_2$ 采用两个样本进行估计，对 $R_n$ 采用n个样本进行估计，也就是逐渐增加样本个数的方式来构建区域。 $V_n$ 为 $R_n$ 的体积， $\hat{p_n}(x)=\frac{k_n}{NV_n}$ 为 $p(x)$ 的第n次估计，有下面的结论：

$\lim_{n\to \infty}V_n = 0$

$\lim_{n\to \infty}k_n = \infty$

$\lim_{n\to \infty}\frac{k_n}{n} = 0$

则， $\hat{p_n}(x)$ 收敛于 ${p_n}(x)}$ 两种选择方法

选择 $V_n$ 比如 $V_n = \frac{1}{\sqrt{n}}$ 同时对 $k_n$ 和 $\frac{k_n}{n}$ 加限制以保障收敛,此法称为Parzen窗方法
选择 $k_n$ 比如 $k_n = \frac{1}{\sqrt{n}}$ , $V_n$ 为正好包含x的 $k_n$ 个近邻，此法为 $k_N$ 近邻估计

Parzen 窗方法

概率密度的估计公式为： $\hat{p_n}(x)=\frac{k_n}{NV_n}$ ，设区域 $R_n$ 是以 $h_N$ 为棱长的d维超立方体，则立方体的体积为： $V_N= h_N^d$

定义一个窗函数， $\varphi(x)=\left\{\begin{matrix}1,\begin{vmatrix}u_j\end{vmatrix}\leqslant 1/2,j=1,2,...,d\\0,other\end{matrix}\right$

求出落入超立方体的样本个数
如果某一样本 $x_i$ 落入该超立方体，则有 $\varphi(\frac{x-x_i}{h_N})=1$ ,否则 $\varphi(\frac{x-x_i}{h_N})=0$ 落入该立方体的样本数 $k_n=\sum_{i=1}^{N}\varphi(\frac{x-x_i}{h_N})$ 点x的概率密度为： $\hat{p_n}(x)=\frac{k_n}{NV_n} = \frac{1}{N}\sum_{i=1}^{N}\frac{1}{V_n}\varphi(\frac{x-x_i}{h_N})$

现在我们来对比高斯混合模型和parzen 窗方法的公式

$f(x)=\sum_{k=0}^{N}w_kp_k(x)$
$f(x)=\frac{1}{N}\sum_{i=1}^{N}\frac{1}{V_n}\varphi(\frac{x-x_i}{h_N})$

可以看出，有两个地方不同，第一，窗的选择不同，Parzen的选择有更明确的物理意义，高斯混合模型的窗是基于函数逼近理论选择出来的，第二，系数不同，高斯混合模型需要数据来训练得出系数，Parzen 窗方法有明确的物理意义。其实如果Parzen 选择高斯窗口，样子看起来更像高斯混合模型。一般来说，高斯混合模型更多的用于分类，Parzen等KDE方法更多的用于概率密度的估计。两个方法的意义不一样。

引用 http://www.doc88.com/p-8109915473355.html
http://www.doc88.com/p-8059993777655.html