非参数估计:已知样本所属的类别,但未知总体概率密度函数的形式,要求我们直接推断概率密度函数本身。非参数估计的方法主要有:直方图法、核方法。
Parzen窗估计属于非参数估计的核方法的一种。
在数学上一个连续概率密度函数p(x)的需满足以下的条件:
1、x在a和b之间的概率为:
2、对所有的x,p(x)非负
3、p(x)的积分值为1
最经常使用的概率密度函数就是高斯函数(正态分布)
1、在一个区域
R内
x的概率为
密度估计
给点n个数据样本x1,x2,....,xn,我们可以估计概率密度函数p(x),对于新的样本x就可以计算出相应的p(x).这个过程就是密度估计。
给点n个数据样本x1,x2,....,xn,我们可以估计概率密度函数p(x),对于新的样本x就可以计算出相应的p(x).这个过程就是密度估计。
密度估计的基础是:一个向量x落入到区域R的概率为
假设R非常小,所以p(x)的变化也很小,上面的公式就改写为:
另一方面,假设x1,...,xn是根据密度函数p(x)独立取的n个样本点,其中有k个样本点落入到区域R中,关于R的概率就为:
这样就可以得到一个p(x)的估计函数:
Parzen window密度估计
假设R是以x为中心的超立方体,h为这个超立方体的边长,在2-D的方形中有V=h*h,3-D的立方体中有V=h^3。
给定上面的公式,表示的是Xi是否落在方形中。
Parzen概率密度估计公式的表示如下:
估计的思路是:概率除以体积=概率密度
同时可以对窗口函数做一定的泛化,就有其他的Parzen window密度估计方法。
例如在1-D的情况下使用Gaussian函数:
常见的几种核函数:
(1)方窗:
其中 h为超立方体的棱长
(2)高斯窗(正态窗)
即以样本 xi为均值、协方差矩阵为 Σ=ρ2Q的正态分布
一维情况为:
其中 V是超球体的体积,ρ是超球体的半径
高斯窗的例子:
计算过程如下:
采用Parzen Window对这个五个点估计得到的概率密度函数为:
用样本的核函数分布的加权求和,叠加估计出指定位置的概率密度
主要参考资料:http://www.personal.rdg.ac.uk/~sis01xh/teaching/CY2D2/Pattern2.pdf