STAT313 Chap5 多变量核密度估计带宽选择（上）

最新推荐文章于 2024-06-06 14:47:16 发布

冰霜青羽

最新推荐文章于 2024-06-06 14:47:16 发布

阅读量1.1k

点赞数 12

文章标签：多变量核密度估计核密度估计最小二乘交叉验证 LSCV 带宽矩阵

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_35939846/article/details/139497286

版权

本文原创笔记，禁止转载。有问题可私信付费找我咨询。

最优带宽 $h_{AMISE}$ 的表达式是：
$h_{AMISE} = \left( \frac{d \lVert K \rVert^2_{L_2}}{n \mu_2(\kappa)^2 \lVert \Delta f \rVert^2_{L_2}} \right)^{\frac{1}{d+4}}$

这里：
$d$ 是数据的维度。
$\lVert K \rVert_{L_2}$ 是核函数 $K$ 的 $L_2$ 范数。
$\mu_2(\kappa)$ 是核函数 $\kappa$ 的二阶矩。
$\lVert \Delta f \rVert^2_{L_2}$ 是目标函数 $f$ 的拉普拉斯算子的 $L_2$ 范数平方。

注意：
未知的 $\lVert \Delta f \rVert^2_{L_2}$ ：在实际中，目标密度函数 $f$ 的二阶导数的平方的积分通常是未知的，这使得直接计算 $h_{AMISE}$ 变得困难。
类比单变量情况：在单变量核密度估计中，相应的未知量是目标函数的二阶导数的 $L_2$ 范数。尽管多变量情况更为复杂，但基本的处理方法类似，即估计或逼近这些未知量。

解决方案

数据驱动的带宽选择：实际中，可以采用基于数据的方法来选择或调整带宽。这些方法通常涉及一些形式的交叉验证或者启发式规则，以近似最优带宽。
带宽选择器的适应：可以将单变量核密度估计中使用的带宽选择技术扩展和修改，以适应多变量情况。例如，使用插值方法或者基于样本点的局部密度估计来逼近
$\lVert \Delta f \rVert^2_{L_2}$ 。

最小二乘交叉验证

最小二乘交叉验证（Least squares cross validation, LSCV）

基本原理

LSCV 方法通过最小化一个估计的均方误差来选择带宽。这个估计的均方误差（MISE）由下面的表达式给出：
$\int_{\mathbb{R}} \hat{f}(x; h)^2 dx - \frac{2}{n} \sum_{i=1}^{n} \hat{f}_{-i}(X_i; h)$
其中：

$\hat{f}(x; h)$ 是使用带宽 $h$ 的整体核密度估计。
$\hat{f}_{-i}(X_i; h)$ 是在去除第 $i$ 个观测点后，使用带宽 $h$ 估计在点 $X_i$ 处的密度。

组件解释

$\int_{\mathbb{R}} \hat{f}(x; h)^2 dx$ 是核密度估计平方的积分，反映了估计的整体平滑度。

$-\frac{2}{n} \sum_{i=1}^n \hat{f}_{-i}(X_i; h)$ 是一个交叉验证项，其中 $\hat{f}_{-i}(X_i; h)$ 是对除了第 $i$ 个数据点之外的所有数据点计算的密度估计在 $X_i$ 的值。这部分用于惩罚过拟合，确保带宽不会过小，从而避免模型对数据的噪声过度敏感。

目标

最小化 $L SC V (h)$ ：通过调整带宽 $h$ ，找到使 $L SC V (h)$ 最小的 $h$ 。这个过程通常涉及数值方法，因为 $L SC V (h)$ 的表达式涉及到积分和求和，可能没有解析解。

这部分讨论了带宽选择中的最小二乘交叉验证（LSCV）方法，但重点从单变量情况扩展到多变量情况，引入了带宽矩阵 (H)。

带宽选择中的带宽矩阵 $H$

在多变量情况下，带宽不再是单一的数值 $h$ ，而是一个带宽矩阵 $H$ 。带宽矩阵 $H$ 是一个对称的正定矩阵，用于在多维空间中控制每个方向上的平滑程度。

最小二乘交叉验证（LSCV）的多维形式

计算方法

LSCV 函数：
$\int (\hat{f}(x; H))^2 \, dx - \frac{2}{n} \sum_{i=1}^n \hat{f}_{-i}(X_i; H)$
其中 $\hat{f}(x; H)$ 是使用带宽矩阵 $H$ 的多变量核密度估计，而 $\hat{f}_{-i}(X_i; H)$ 是在去除第 $i$ 个数据点后得到的密度估计值。

目标

最小化 $L SC V (H)$ ：寻找最小化 $L SC V (H)$ 的带宽矩阵 $H$ ，这将使得估计误差的均方误差（MISE）最小化。

上图展示了使用最小二乘交叉验证（LSCV）方法确定的带宽矩阵 $H_{LSCV}$ 来估计黄石公园old faithful间歇泉喷发时间与等待时间的联合密度。

这是一个R语言自带的数据集

data(faithful)

估计的带宽矩阵

$H_{LSCV} = \begin{pmatrix} 0.014 & 0.111 \\ 0.111 & 11.922 \end{pmatrix}$

这个矩阵的对角线元素代表各自维度上的带宽大小，而非对角线元素表示不同特征间的相关性调整。
带宽矩阵中的元素 $0.014$ 和 $11.922$ 分别影响喷发时间和等待时间的平滑程度。较小的值 $0.014$ 表明喷发时间的变化在密度估计中得到了较高的考虑（较少平滑），而较大的值 $11.922$ 表明等待时间被平滑处理得较多。
非对角线元素 $0.111$ 表示喷发时间和等待时间之间的相关性调整，这对于揭示两者之间可能存在的依赖关系很重要。

核密度图解释

坐标轴

横轴表示喷发时间，单位可能是分钟。
纵轴表示两次喷发之间的等待时间，同样单位可能是分钟。

等高线

图中的等高线表示不同喷发时间和等待时间组合的概率密度。等高线越密集，表示该区域的数据点越集中，即这种喷发时间和等待时间组合的发生概率越高。
每条等高线上的数值代表密度估计的高度，数值越大，表示在该点附近观测到数据点的概率越高。

数据分布特征

核密度图显示了至少两个主要的集群区域，表明old faithful的喷发行为可能具有两种不同的模式。一种是喷发时间较短且等待时间较短的模式，另一种是喷发时间较长且等待时间较长的模式。
这两个集群之间存在一定的间隙，表明喷发时间和等待时间的组合在这两种模式之间没有平滑过渡，而是相对分离的。

重要性和应用

密度估计的应用：通过这种图形，研究人员可以更好地理解数据的结构和关键特征。例如，在地质研究中，这有助于预测间歇泉的行为。
带宽矩阵的选择： $H_{LSCV}$ 的选择直接影响估计的精度和可靠性。通过最小二乘交叉验证，我们可以找到一个既不过度平滑也不过度敏感的带宽，从而捕捉数据的真实分布。