GMM 与 KDE 区别与联系
其中 N 表示 Component 的个数,也就是由多少个高斯分布来进行混合,表示每一个Component的权重,它是一个概率意义上的量,代表了一个观测数据由第i个Component生成的概率,因此
其中, 代表了第k个Component的概率密度函数
从这个公式上面可以看到,一般高斯混合模型的用途是用来做分类判别用,第k个Component代表了第k类,如果我们已经有了第k类的信息,那么我们就可以判定一个数据是属于第k类的概率,这个概率值就是,因此对K个可能的分类,我们就会得到把当前的数据分类到第k类的概率为。
用高斯模型的线性组合来拟合未知的分布,有研究表明有过拟合的问题存在,物理意义并不明显,不像KDE有窗的概念,有窗的宽度等东西,因此他们的解释是不一样的
KDE 的概念是从直方图的概率中过度来的,我们看看KDE的定义是如何得到的
我们以一维的情况来举例,假设在某未知分布下,观测了N次得到N个结果,这是为了保证这N个数据是独立同分布的。我们考察一个给定的区间R在这N个数据中,有K个落在R中的情况,很明显,这属于二项分布的情况
k 的期望值是
其中P是,
可以这么来理解k的期望,就是一共有N个数据,区间R中有k个的平均值就是nP,这是二项分布的特点 ,因此因此我们可以用下面的公式来估计k
对这个公式进行一下变形,得到如下公式
这就可以是k的一个概率估计,当样本数n很大的时候,这个估计就越准确
现在假设区域R足够小,然后在R的这个小区域里面,p(x)的值变化都非常小,可以近似相等,那么在R中取值,我们可以计算这个R区间内的面积,也就是有k个数据在R中的概率
这里的R本身就代表了区间的长度,但是为了扩展到更高纬度的方便,这里用体积V来表示,一维的情况下是长度,二维情况下是面积,三维情况下是体积,对N维情况下就要用到测度来表示了,测度其实就是一种更严格的定义的关于不同维度下的“体积“的一种度量。
为了得到概率密度的表达式,我们只需要把上面等式的后面部分做一个变形就可以得到:
现在来看这里得到的理论结果:假设有一系列包含x的区域,对采用一个样本进行估计,对采用两个样本进行估计,对采用n个样本进行估计,也就是逐渐增加样本个数的方式来构建区域。为的体积,为的第n次估计,有下面的结论:
则,收敛于两种选择方法
- 选择 比如同时对和加限制以保障收敛,此法称为Parzen窗方法
- 选择 比如,为正好包含x的个近邻,此法为近邻估计
Parzen 窗方法
概率密度的估计公式为:,设区域是以为棱长的d维超立方体,则立方体的体积为:
定义一个窗函数,
求出落入超立方体的样本个数
如果某一样本落入该超立方体,则有,否则落入该立方体的样本数点x的概率密度为:
引用 http://www.doc88.com/p-8109915473355.html
http://www.doc88.com/p-8059993777655.html