核密度估计——从直方图到核密度（核函数）估计_带宽选择

文大于2

已于 2024-12-05 00:59:47 修改

阅读量2.3k

点赞数 12

文章标签：概率论机器学习人工智能学习

于 2024-12-04 22:13:34 首次发布

本文链接：https://blog.csdn.net/weixin_43213559/article/details/144248773

版权

参考

核密度估计（KDE）原理及实现-CSDN博客

机器学习算法（二十一）：核密度估计 Kernel Density Estimation(KDE)_算法_意念回复-GitCode 开源社区

引言

在统计学中，概率密度估计是一种重要的方法，用于估计连续型随机变量的概率密度函数。与基于假设的参数方法不同，概率密度估计是一种非参数方法，能够对数据进行平滑估计。其核心目的是通过对观察数据的平滑处理来揭示其潜在的分布特性，尤其在数据分布未知或没有假设具体分布模型时，概率密度估计成为理解数据基本特征的重要手段。

概率密度估计方法可以分为直方图密度估计和核密度估计两种。其中，直方图密度估计将数据划分为若干区间，通过计算每个区间内的频数来近似表示概率密度，是一种简单而直观的方法。而核密度估计则通过将每个观测值与一个核函数进行加权叠加，得到一个连续平滑的概率密度函数，用于更精细地描述数据的分布特性。

一元密度估计在描述数据集中趋势、分布状况及多峰情况方面非常有效。这种方法在探索数据特征时提供了一种可靠且灵活的工具，能够帮助研究者理解数据的内在结构，尤其是在数据包含多样性和异常值时，密度估计的方法更显优势。因此，密度估计在统计分析、数据挖掘和机器学习等领域得到了广泛的应用。

一．直方图密度估计

在直方图密度估计中，如何选择合适的区间数量（也称为组数）是一个关键问题。

Sturges准则是一种常用的方法，用于确定直方图的最佳区间数量。Sturges准则的核心思想是，当数据样本量较小时，通过对数缩放的方法使得区间数量适中，以避免过度平滑或过度分割数据。这种方法适用于数据呈近似正态分布的情况，能够有效地平衡直方图的平滑性和分辨能力。然而，当样本量较大或者数据分布偏离正态分布时，Sturges准则可能会显得不足，产生较少的区间，从而导致直方图无法很好地捕捉数据的细节特征。

为了解决这一问题，研究者们还提出了其他区间选择准则，例如Freedman-Diaconis准则和Scott准则，这些方法在处理具有不同分布特征的数据时能够提供更为灵活和精确的区间划分。

1.1 Sturges准则

Sturges准则的核心思想是，当数据样本量较小时，通过对数缩放的方法使得区间数量适中，以避免过度平滑或过度分割数据。这种方法适用于数据呈近似正态分布的情况，能够有效地平衡直方图的平滑性和分辨能力。Sturges准则的思想是通过样本总数的对数来限制分组数，以保持合理的分布假设。在一些特殊情况下，如样本来自二项分布（Binomial）或其他复杂分布时，可以使用这个准则进行分组。Sturges准则的分组区间的最佳宽度可以通过如下公式计算：

其中 R 表示样本的极差，n 表示样本大小。通过这个公式，区间的宽度主要依赖于样本的大小，而非数据的实际分布。这种选择方式适用于从对称或单峰的总体中抽取的数据，但在某些情况下（如偏态分布或多峰分布），该准则可能并不适用。

如何通过直方图来估计数据的密度？

当样本量为 n=1000，并基于对样本的直方图分组来估计相应的密度值。首先，为了从直方图中重新得到密度估计，需找到包含所关心点的区间，并计算相应的组频率。

在默认的直方图中，x0=0.1 位于第 7 组，其中密度 f1(0.1)=0.38。而在 Sturges 分组的直方图中，x0 在第 6 组，f2(0.1)=0.3889306。换句话说，密度估计是通过分组加权得到的相对频率。结果显示用默认直方图密度估计0.1的概率密度为f1(0.1)=0.38，如果用Sturges 分组的直方图估计0.1的概率密度f2(0.1)=0.3889306。这两个估计值与理论标准正态密度的值 ϕ(0.1)=0.3969525 非常接近，<

最低0.47元/天解锁文章