STAT313 Chap5 多变量核密度估计带宽选择(上)

本文原创笔记,禁止转载。有问题可私信付费找我咨询。

最优带宽 h A M I S E h_{AMISE} hAMISE 的表达式是:
h A M I S E = ( d ∥ K ∥ L 2 2 n μ 2 ( κ ) 2 ∥ Δ f ∥ L 2 2 ) 1 d + 4 h_{AMISE} = \left( \frac{d \lVert K \rVert^2_{L_2}}{n \mu_2(\kappa)^2 \lVert \Delta f \rVert^2_{L_2}} \right)^{\frac{1}{d+4}} hAMISE=(nμ2(κ)2ΔfL22dKL22)d+41

这里:
d d d 是数据的维度。
∥ K ∥ L 2 \lVert K \rVert_{L_2} KL2 是核函数 K K K L 2 L_2 L2 范数。
μ 2 ( κ ) \mu_2(\kappa) μ2(κ) 是核函数 κ \kappa κ 的二阶矩。
∥ Δ f ∥ L 2 2 \lVert \Delta f \rVert^2_{L_2} ΔfL22 是目标函数 f f f 的拉普拉斯算子的 L 2 L_2 L2 范数平方。

注意:
未知的 ∥ Δ f ∥ L 2 2 \lVert \Delta f \rVert^2_{L_2} ΔfL22 :在实际中,目标密度函数 f f f 的二阶导数的平方的积分通常是未知的,这使得直接计算 h A M I S E h_{AMISE} hAMISE 变得困难。
类比单变量情况:在单变量核密度估计中,相应的未知量是目标函数的二阶导数的 L 2 L_2 L2 范数。尽管多变量情况更为复杂,但基本的处理方法类似,即估计或逼近这些未知量。

解决方案

  • 数据驱动的带宽选择:实际中,可以采用基于数据的方法来选择或调整带宽。这些方法通常涉及一些形式的交叉验证或者启发式规则,以近似最优带宽。
  • 带宽选择器的适应:可以将单变量核密度估计中使用的带宽选择技术扩展和修改,以适应多变量情况。例如,使用插值方法或者基于样本点的局部密度估计来逼近
    ∥ Δ f ∥ L 2 2 \lVert \Delta f \rVert^2_{L_2} ΔfL22

最小二乘交叉验证

最小二乘交叉验证(Least squares cross validation, LSCV)

基本原理

LSCV 方法通过最小化一个估计的均方误差来选择带宽。这个估计的均方误差(MISE)由下面的表达式给出:
L S C V ( h ) = ∫ R f ^ ( x ; h ) 2 d x − 2 n ∑ i = 1 n f ^ − i ( X i ; h ) LSCV(h) = \int_{\mathbb{R}} \hat{f}(x; h)^2 dx - \frac{2}{n} \sum_{i=1}^{n} \hat{f}_{-i}(X_i; h) LSCV(h)=Rf^(x;h)2dxn2i=1nf^i(Xi;h)
其中:

  • f ^ ( x ; h ) \hat{f}(x; h) f^(x;h) 是使用带宽 h h h 的整体核密度估计。
  • f ^ − i ( X i ; h ) \hat{f}_{-i}(X_i; h) f^i(Xi;h) 是在去除第 i i i 个观测点后,使用带宽 h h h 估计在点 X i X_i Xi 处的密度。

组件解释

∫ R f ^ ( x ; h ) 2 d x \int_{\mathbb{R}} \hat{f}(x; h)^2 dx Rf^(x;h)2dx 是核密度估计平方的积分,反映了估计的整体平滑度。

− 2 n ∑ i = 1 n f ^ − i ( X i ; h ) -\frac{2}{n} \sum_{i=1}^n \hat{f}_{-i}(X_i; h) n2i=1nf^i(Xi;h) 是一个交叉验证项,其中 f ^ − i ( X i ; h ) \hat{f}_{-i}(X_i; h) f^i(Xi;h) 是对除了第 i i i 个数据点之外的所有数据点计算的密度估计在 X i X_i Xi 的值。这部分用于惩罚过拟合,确保带宽不会过小,从而避免模型对数据的噪声过度敏感。

目标

最小化 L S C V ( h ) LSCV(h) LSCV(h) :通过调整带宽 h h h ,找到使 L S C V ( h ) LSCV(h) LSCV(h) 最小的 h h h 。这个过程通常涉及数值方法,因为 L S C V ( h ) LSCV(h) LSCV(h) 的表达式涉及到积分和求和,可能没有解析解。

最小二乘交叉验证
这部分讨论了带宽选择中的最小二乘交叉验证(LSCV)方法,但重点从单变量情况扩展到多变量情况,引入了带宽矩阵 (H)。

带宽选择中的带宽矩阵 H H H

在多变量情况下,带宽不再是单一的数值 h h h ,而是一个带宽矩阵 H H H 。带宽矩阵 H H H 是一个对称的正定矩阵,用于在多维空间中控制每个方向上的平滑程度。

最小二乘交叉验证(LSCV)的多维形式

计算方法

LSCV 函数
L S C V ( H ) = ∫ ( f ^ ( x ; H ) ) 2   d x − 2 n ∑ i = 1 n f ^ − i ( X i ; H ) LSCV(H) = \int (\hat{f}(x; H))^2 \, dx - \frac{2}{n} \sum_{i=1}^n \hat{f}_{-i}(X_i; H) LSCV(H)=(f^(x;H))2dxn2i=1nf^i(Xi;H)
其中 f ^ ( x ; H ) \hat{f}(x; H) f^(x;H) 是使用带宽矩阵 H H H 的多变量核密度估计,而 f ^ − i ( X i ; H ) \hat{f}_{-i}(X_i; H) f^i(Xi;H) 是在去除第 i i i 个数据点后得到的密度估计值。

目标

最小化 L S C V ( H ) LSCV(H) LSCV(H) :寻找最小化 L S C V ( H ) LSCV(H) LSCV(H) 的带宽矩阵 H H H ,这将使得估计误差的均方误差(MISE)最小化。


上图展示了使用最小二乘交叉验证(LSCV)方法确定的带宽矩阵 H L S C V H_{LSCV} HLSCV 来估计黄石公园old faithful间歇泉喷发时间与等待时间的联合密度。

这是一个R语言自带的数据集

data(faithful)

估计的带宽矩阵

H L S C V = ( 0.014 0.111 0.111 11.922 ) H_{LSCV} = \begin{pmatrix} 0.014 & 0.111 \\ 0.111 & 11.922 \end{pmatrix} HLSCV=(0.0140.1110.11111.922)

  • 这个矩阵的对角线元素代表各自维度上的带宽大小,而非对角线元素表示不同特征间的相关性调整。
  • 带宽矩阵中的元素 0.014 0.014 0.014 11.922 11.922 11.922 分别影响喷发时间和等待时间的平滑程度。较小的值 0.014 0.014 0.014 表明喷发时间的变化在密度估计中得到了较高的考虑(较少平滑),而较大的值 11.922 11.922 11.922 表明等待时间被平滑处理得较多。
  • 非对角线元素 0.111 0.111 0.111 表示喷发时间和等待时间之间的相关性调整,这对于揭示两者之间可能存在的依赖关系很重要。

核密度图解释

坐标轴
  • 横轴表示喷发时间,单位可能是分钟。
  • 纵轴表示两次喷发之间的等待时间,同样单位可能是分钟。
等高线
  • 图中的等高线表示不同喷发时间和等待时间组合的概率密度。等高线越密集,表示该区域的数据点越集中,即这种喷发时间和等待时间组合的发生概率越高
    每条等高线上的数值代表密度估计的高度,数值越大,表示在该点附近观测到数据点的概率越高。
数据分布特征
  • 核密度图显示了至少两个主要的集群区域,表明old faithful的喷发行为可能具有两种不同的模式。一种是喷发时间较短且等待时间较短的模式,另一种是喷发时间较长且等待时间较长的模式。
    这两个集群之间存在一定的间隙,表明喷发时间和等待时间的组合在这两种模式之间没有平滑过渡,而是相对分离的。

重要性和应用

  • 密度估计的应用:通过这种图形,研究人员可以更好地理解数据的结构和关键特征。例如,在地质研究中,这有助于预测间歇泉的行为。
  • 带宽矩阵的选择 H L S C V H_{LSCV} HLSCV 的选择直接影响估计的精度和可靠性。通过最小二乘交叉验证,我们可以找到一个既不过度平滑也不过度敏感的带宽,从而捕捉数据的真实分布。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值