非参数估计得目的
下面介绍三种实例
第一:利用可用数据估计先验概率分布
第二:直接估计后验概率分布
第三:特征空间投影降维度
我们先表诉一下PDF与概率P的关系:
P:概率
x:通用符号
这样看来,我们想估计出P,我们就必须估计出PDF
假设我们收集了n个数据的随机样本 x1…xn(独立同分布)
n个数据中的k个在R中,我们的估计就可以写成
接下来:
如果pdf连续且变化不大在区域R中:就有这个(V是R的体积)
联立一下上述两个公式,我们可以得到这个
这个是我们设想的情况:
实际情况
为了获取p(x 0)而不是它在R上的平均值,V应该变成0
由于n在现实世界中是固定的,这将使k也为0,从此使估计
无用。
另外考虑收敛性问题:
所以我们总结出这三种情况必须去满足:
从而就可以引发出两种方法来搞
非参数估计
看个例子!
例子二:
对比样本数量对PAREZEN窗的影响
多峰情况的例子
优缺点分析
贝叶斯最小错误率判别准则
hn越小分类越精确
近邻算法
回顾Parzen窗:先有窗在对窗里面数据数数的方法
近邻KM算法:指定多少个邻居