Kernel density estimation 核密度估计

最新推荐文章于 2024-03-03 17:27:33 发布

Evan_Gu

最新推荐文章于 2024-03-03 17:27:33 发布

阅读量1.7w

点赞数 3

分类专栏：数学基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gdp12315_gu/article/details/49766245

版权

数学基础专栏收录该内容

14 篇文章 9 订阅

订阅专栏

kernel density estimation是在概率论中用来估计未知的密度函数，属于非参数检验方法之一，由Rosenblatt (1955)和Emanuel Parzen(1962)提出，又名Parzen窗（Parzen window）。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。

可以参考 http://www.mvstat.net/tduong/research/seminars/seminar-2001-05/

https://chemicalstatistician.wordpress.com/2013/06/09/exploratory-data-analysis-kernel-density-estimation-in-r-on-ozone-pollution-data-in-new-york-and-ozonopolis/

核密度估计，主要是根据密度函数来计算集合中个项的分布情况。其中密度函数是以各个数值为中心进行计算。

下面从一维数据来介绍核密度估计。

如下图1左图所示，有12个数据点，分布在横轴坐标上，现在以箱子（直方图中的小正方块）来对数据点分布情况进行描述，每个箱子的宽度为0.5 （对应 binwidth =0.5），图中纵轴表示在横轴区域中出现点的数目。

当以同样的宽度，将最右边的箱子往右移动0.25，那么箱子的堆积方式变为图1右图所示。

图1

从对比图1中左右两直方图，我们可以发现，这些用这些箱子来表示这些点的分布情况存在以下三点缺陷：

① 分布不够平滑

②分布依赖与最后一个箱子的位置

③分布依赖箱子的宽度

而核心密度估计，引入核心的概念，即将箱子放到每个点上，使得点集中心为箱子的中心，箱子高度为1/6，宽度为0.25，上述点分布变为如下图2所示。

图2

上图2就是我们所说的 box kernel density estimate 然而，这样做可以解决上述一个问题，

① 不平滑

②不依赖箱子的最后位置

③依赖箱子宽度

为了解决平滑的问题，我们需要选择一个合适的宽度 width ，太小（如下图undersmoothed）或者太大（如下图 oversmoothed ）都不合适。

那么如何选择合适的 width 宽度呢？常见的方法是渐进的积分方差（AMISE = Asymptotic Mean Integrated Squared Error）

bandwidth = min（AMISE）最优的bandwidth为AMISE最小值

然而，AMISE还是依赖数据的真实的密度，但是这样渐进的到的最小值可以保持平滑，并且能包含数据的分布特征。

上述例子的最优 bandwidth = 0.25, 如下图所示

到此，我们对核心密度函数有了初步的了解，然而，这只是针对一维数据，还有针对二维，多维的情况。

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
Kernel density estimation 核密度估计

kernel density estimation是在概率论中用来估计未知的密度函数，属于非参数检验方法之一，由Rosenblatt (1955)和Emanuel Parzen(1962)提出，又名Parzen窗（Parzen window）。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。（先记录一下，下次再补全资料）
复制链接

扫一扫

专栏目录

Evan_Gu CSDN认证博客专家 CSDN认证企业博客

码龄12年

240: 原创

3万+: 周排名

115万+: 总排名

181万+: 访问

: 等级

1万+: 积分

295: 粉丝

429: 获赞

108: 评论

1316: 收藏

私信

关注

热门文章

分类专栏

人工智能 1篇
大数据 2篇
大数据可视化 32篇
团队管理 1篇
软件系统架构与开发环境 28篇
综合 114篇
分布式系统 12篇
错误集 46篇
数学基础 14篇
IOS开发笔记类 1篇
D3.js 3篇
C# 5篇
Spark 13篇
MySQL 11篇
TCP/IP协议 5篇
Scala 4篇
Linux 3篇
Node 4篇
Express 1篇
Java 15篇
Javascript 44篇
Android 9篇
数据库 7篇
CSS 1篇
Python 1篇
docker 3篇
RESTful API 2篇
Nginx 1篇
Springframework 1篇
Cesium 1篇

最新评论

什么是模型，什么是模式
萤火之喵: 博主的分享很有价值，训练过程就是很麻烦的，而且服务器性能不好的话时间成本比较高，在训练部分不如直接从算力市场上租一个A100卡，在A100上基本上大部分的中小型训练任务都能完成，而且云上服务器使用过程中还省去了自己配置环境的步骤，我做过调研对比，其中包括autodl、inscode和炼丹侠，这三个里autodl的资源最全，但是高端服务器略有欠缺，咱们训练需要高性能服务器的话可以去炼丹侠算力市场，这里还有免费试用机会，快去薅羊毛吧
免信用卡注册亚马逊
qingbosoft: 此方法行不通，现在亚马逊要让打款1刀，无法支付验证不通过
Java String.split()处理分隔符
安儿。: 想问下为啥不是 \* 而是要写成 \\* 呢，为啥要两个\
贝叶斯网络(Bayesian Network)
L-YYQX-L: 请问您学会了嘛
Unix timestamp时间与普通时间转换方法
倾听@西妮: 区块链中的时间戳可以通过上述命令转换成本地时间格式吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。