数据分析介绍之三——单变量数据观察之核密度估计

数据分析介绍之三——单变量数据观察之核密度估计

一、核密度估计

上一篇结尾处谈到了直方图的几个缺点,幸运的是,除了这些问题之外,还有经典直方图的替代方案。 称为核密度估计。
这里写图片描述

内核密度估计(KDEs)是一种比较新的技术。 与直方图和许多其他经典数据分析方法相比,它们几乎要求合理的现代计算机的计算能力有效。 即使是相当适中的数据集,它们也不能用纸和铅笔手工完成。 (有趣的是,计算和图形功能的可访问性如何能够新的方式来思考数据!)

为了形成KDE,我们在每个数据点的位置放置一个内核,即一个平滑的,强峰值的函数。 然后,我们将来自所有内核的贡献加起来,获得一个平滑的曲线,我们可以在x轴的任意点进行评估。

图2-4显示了一个例子。 这是我们以前在图2-1中看到的数据集的另一个表示。 虚线框是数据集的直方图(bin宽度等于1),实线是具有不同带宽的相同数据集的两个KDE(稍后将解释此概念)。 单个内核函数的形状可以清楚地看出来——例如,通过考虑低于20的三个数据点。您还可以看到最终曲线如何由单个内核组成,特别是当您查看30到40之间的点。

这里写图片描述

我们可以使用任何平滑,强峰值的函数作为内核,只要它集成到1; 换句话说,由单个内核形成的曲线下面积必须为1.(这是必要的,以确保生成的KDE正确归一化)。常用内核函数的一些示例包括(见图2-5):

  • 9
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值