核密度估计(KDE)

对于大量数据的可视化,在一维数据中,直方图(histogram)是一种普遍的方式,另外还有一种方式:核密度估计(kernel density estimation)。除了在可视化方面的用处以外,核密度估计有利与进行聚类算法的构造。

基本概念

核密度估计方法从直观上来看是平滑化的直方图,从理论角度上来讲是不利用数据分布的先验知识研究数据的分布特征。 优于直方图的一点是核密度估计是可以用于多维空间的。

直观理解

一组数据的直方图如下
这里写图片描述
用KDE方法拟和出来的结果
这里写图片描述

理论

核密度估计方法是类似于激活函数的一种方法,这里激活函数变成了核函数(kernel)。对于取值于R的独立同分布随机变量x1,x2,...,xnx1,x2,...,xn,核密度估计得到的估计分布密度函数为

f̂ h(x)=1ni=1nK(xixh)f^h(x)=1n∑i=1nK(xi−xh)
为核函数,一般需要满足以下条件:
K(u)=K(u)K(u)du=1,K(−u)=K(u)∫−∞∞K(u)du=1,

所以常用的核函数有:高斯核函数,Epanechnikov函数,Biweight函数等。

更多
  1. 核密度估计的性质
    关于核密度估计方法,除去对核函数的讨论,最影响其结果的 就是窗宽<script type="math/tex" id="MathJax-Element-104">h</script>了:窗宽越小,观察到的数据点在最终的估计曲线比重越大,曲线越陡峭,反之。上图中的KDE增大窗宽,得到下图,

    增大h

    进一步增大窗宽可能发生波形融合:

    进一步增大h
  2. KDE在多维数据里面的应用展示
    可以用于展示二维变量之间的协同分布,同时可以通过颜色加入第三个变量为观察量。

    轴上显示为kde曲线图
    轴上显示为rug图
    多组成对变量的kde观察图
参考文献
  1. http://www.tuicool.com/articles/vIv6Ff
  2. https://wenku.baidu.com/view/51832ab6172ded630b1cb6a7.html
  3. http://seaborn.pydata.org/tutorial/distributions.html
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值