概率密度估计笔记——非参数估计

主要解决在样本的分布没有足够的先验,也就是说我们不仅不知道分布的参数,连是什么类型的分布都不知道,这种情况下显然不能用参数估计的方法。这里从简单直观的方法——直方图法入手,引出KNN和Parzen窗两种方法。

直方图密度估计:出发点是分布函数 ,假设在某一个很小很小的超立方体V中是均匀分布,那么有

我们就可以得到关于概率密度函数p(x)的估计了

但是要有几个苛刻的条件

通俗的说就是,在样本数量n不断增加趋于无穷大时,要让小舱体积v尽可能小,同时小舱内有充分多的样本k,但是每个小舱内的样本数又必须是总体样本数中很小的一部分。所以小舱的选择会对估计的效果产生直接影响,那么下面就给出两种选择小舱方法。

 

KNN:

基本做法:固定局部区域K,体积V进行变化。

需要人为调定一个参数 ,代表的是在总样本数量是N 的情况下我们要使得每个框中落入的样本个数。

一般选取.

 

Parzen窗:

基本做法:固定局部区域体积V,k变化。

要给出一个窗函数:这里以方窗函数为例(通常也可以有高斯窗,可能更有普遍意义)

那么以点x为中心,体积为 的局部区域内的样本个数为

这个式子就表示了与x的距离为 的样本点会被冠以权重1,然后计入中,距离超过 就冠以权重0计入。

得到

其中 被称为是核函数,通常会有高斯核,方窗核,超球核,指数分布核(抑制噪声的效果更好一点。从分布密度的形状可以看出这一点)。他们要满足概率密度的要求(非负,积分为1)。

h被称为带宽,带宽越大越平滑,带宽越小越容易接近样本值也就越容易产生过拟合。

当样本量不足时要适当加大带宽以减少噪声。

转载于:https://www.cnblogs.com/simayuhe/p/5297232.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值