直方图法、Kn近邻估计法、Parzen窗法

当需要估计的概率密度函数的形式未知,比如我们并不能知道样本的分布形式时,我们就无法用最大似然估计方法或贝叶斯估计方法来进行参数估计,而应该用非参数估计方法。这里就介绍三种非参数估计方法。
需要知道的是,作为非参数方法的共同问题是对样本数量需求较大,只要样本数目足够大众可以保证收敛于任何复杂的位置密度,但是计算量和存储量都比较大。当样本数很少时,如果能够对密度函数有先验认识,则参数估计能取得更好的估计效果。

一、直方图法
首先来考虑最简单的情况,样本 x 是一维的,那么我们将 x 的取值范围分成 k 个等间隔的区间,统计每个区间内样本的个数,由此计算每个区间的概率密度。没错,就是咱们小学做的那样。
这里写图片描述
现在考虑复杂一点的情况,当 x d 维向量的时候,我们对每个维度的量都分成 k 个等间隔的区间,于是我们将整个空间分成了 kd 个小空间,每个小空间的体积定义为: V=di=1valuei ,其中 valuei 为第 i 维分量的每个区间的大小。
假设总样本数为 N ,每个小空间内样本数为 qi ,那么每个小空间的概率密度(注意不是概率)也可以计算出来了,为 qiNV

可以注意到,小区间的大小选择与估计的效果是密切相连的。如果区域选择过大,会导致最终估计出来的概率密度函数非常粗糙;如果区域的选择过小,可能会导致有些区域内根本没有样本或者样本非常少,这样会导致估计出来的概率密度函数很不连续。所以,随着样本数的增加,区域的体积应该尽可能小,同时又必须保证区域内有充分多的样本,但是每个区域的样本数有必须是总样本数的很小的一部分。

所以说,固定区域大小的直方图法只是最简单的非参数估计方法,要想有更好的估计,需要采用能够根据样本分布调整区域大小的方法。下面介绍的 KN 近邻估计法就是一种采用可变大小区域的密度估计方法。

二、 KN 近邻估计法
该方法的基本思想是:根据总样本确定一个参数 kN ,即在中样本数为 N 时我们要求每个区域内拥有的样本的个数。在求 x 处的密度估计 p^(x) 时,我们调整包含 x 的区域的体积,直到区域内恰好落入 kN 个样本,并用下式来估计 p^(x)

  • 17
    点赞
  • 60
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值