Kernel density estimation 核密度估计

       kernel density estimation是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。


      可以参考  http://www.mvstat.net/tduong/research/seminars/seminar-2001-05/ 

  https://chemicalstatistician.wordpress.com/2013/06/09/exploratory-data-analysis-kernel-density-estimation-in-r-on-ozone-pollution-data-in-new-york-and-ozonopolis/ 



  核密度估计 ,主要是根据密度函数来计算 集合中个项的分布情况。其中密度函数是以各个数值为中心进行计算。


下面从一维数据来介绍 核密度估计。


如下图1左图所示,有12个数据点,分布在横轴坐标上,现在以箱子(直方图中的小正方块)来对数据点分布情况进行描述,每个箱子的宽度为0.5 (对应 binwidth =0.5) ,图中纵轴表示在横轴区域中出现点的数目。

当以同样的宽度,将最右边的箱子往右移动0.25,那么箱子的堆积方式变为图1右图所示。



  

图1 


从对比图1中左右两直方图,我们可以发现,这些用这些箱子来表示这些点的分布情况存在以下三点缺陷:

① 分布不够平滑

②分布依赖与最后一个箱子的位置

③分布依赖箱子的宽度


而 核心密度估计,引入核心的概念,即将箱子放到每个点上,使得点集中心为箱子的中心,箱子高度为1/6,宽度为0.25,上述点分布变为如下图2所示。


图2

上图2就是 我们所说的 box kernel density estimate 然而,这样做可以解决上述一个问题,

① 不平滑

②不依赖箱子的最后位置

③依赖箱子宽度


为了解决平滑的问题,我们需要选择一个合适的宽度 width ,太小(如下图undersmoothed)或者太大(如下图 oversmoothed )都不合适。





那么如何选择合适的 width 宽度呢?常见的方法是  渐进的积分方差(AMISE = Asymptotic Mean Integrated Squared Error)

         bandwidth  = min(AMISE)  最优的bandwidth为AMISE最小值

然而,AMISE还是依赖数据的真实的密度,但是这样渐进的到的最小值可以保持平滑,并且能包含数据的分布特征。


上述例子的最优 bandwidth = 0.25, 如下图所示




到此,我们对核心密度函数有了初步的了解,然而,这只是针对一维数据,还有针对二维,多维的情况。






  • 3
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 核密度估计Kernel Density Estimation)是一种通过概率密度函数的方式对数据进行分布估计的非参数方法。该方法可以对数据进行平滑处理,并估计出数据的概率密度函数,从而更好地理解数据的分布情况。在核密度估计中,通过选取一个核函数来估计数据的概率密度函数,常用的核函数有高斯核函数、矩形核函数、三角核函数等。核密度估计在数据分析、信号处理、图像处理等领域有着广泛的应用。 ### 回答2: 核密度估计Kernel Density Estimation)是一种非参数统计学方法,用于估算概率密度函数(PDF)的形状和位置。 核密度估计的核心思想是通过在每个数据点周围放置核函数来创建平滑的密度估计。核函数是一个标准的概率密度函数,它在数据点周围生成一个密度窗口,并将每个数据点的贡献从它们的位置向密度窗口中积累。 当数据点越集中在一起,核函数的数量会增加,产生更平坦的密度窗口来避免过拟合。数据点距离越远,核函数的数量就会减少,产生更尖锐的密度窗口来捕捉较小的细节。 核密度估计还包含一个重要的参数,带宽(bandwidth),它控制了核函数窗口的大小。当带宽较小时,密度曲线会变得更窄,这可能会导致低偏差但高方差的估计。相反,当带宽较大时,密度曲线会变得更平坦,这可能会导致高偏差但低方差的估计。 核密度估计可以用于可视化和比较数据分布,或者作为其他统计方法的前提,例如分类和聚类问题。由于它是一种非参数方法,因此它不依赖于假设或先验分布,因此可以应用于多种数据集和统计问题中。 ### 回答3: Kernel density estimation是一种非参数统计方法,它可以用来估计概率密度函数。简单来说,它在数据点处放置一些核函数,然后将它们加起来得到密度估计。核函数可以是任何连续函数,且它必须是关于原点对称的非负函数,积分以后等于1。 Kernel density estimation的优点在于可以处理非常复杂的概率分布,而不需要假设一个具体的分布类型。这个方法有着非常广泛的应用,其中最常用的是在数据分析、数据挖掘、模式识别和信号处理等领域。 Kernel density estimation的实现过程可以分为三个步骤:核函数的选择、带宽的选择和估计密度函数。对于核函数的选择,通常选择高斯核函数或Epanechnikov核函数。高斯核函数的形式为$K(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^2}$,Epanechnikov核函数的形式为$K(x)=\frac{3}{4}(1-x^2)$。带宽的选择通常使用交叉验证来确定。在估计密度函数时,可以通过对核函数进行平移和缩放得到不同的密度估计,然后将它们平均起来得到最终的估计结果。当数据点变得非常多的时候,随着核函数密度的增加,会导致估计结果的波动性也随之增加,可以通过增加带宽来缓解导致的问题。 总的来说,kernel density estimation是一种非常有用的统计方法,在许多实际应用中都有着广泛的应用,并且它的可解释性和伸缩性可以满足许多实际问题的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值