KDE核密度估计理解

记录下对知乎回答https://www.zhihu.com/question/27301358的个人理解

对连续分布函数而言,概率/分布密度函数是分布函数的导数。

直方图中,所有直方图的面积(高:密度 X 底:x带宽)和为1;对应的,若是密度曲线,则关于x的积分为1。

下式采用了极限逼近的思想,只要h够小,

求的是x这一点处,所以除以区间长度2h。因此方法上本质要求h趋于无穷小。但考虑到样本的随机性(单次试验),h取太小会导致方差大;h取太大,不能很好的代表x这一点,会导致误差大。

如果记(这里等式后边t应加绝对值,K0是对称函数,这样积分为1),则有这里K0(t)可以看做一个核函数,不过是其图像是平行于x轴、值为1/2的线段,其函数值可以理解为[x-h,x+h]内的xi对于估计fh(x)的权重。

如果用[标准]正态分布的密度函数作为K0,则有

 [注]标准正态分布又称为u分布,是以0为均值、以1为标准差的正态分布,记为N(0,1)

有一个问题,标准正态分布的全域积分是1,但[-1,1]上的积分是0.683呀,这个怎么理解?

正态分布密度函数

preview

 更多核函数的曲线见https://blog.csdn.net/pipisorry/article/details/53635895

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值