本文原创笔记,禁止转载。有问题可私信付费找我咨询。
最优带宽
h
A
M
I
S
E
h_{AMISE}
hAMISE 的表达式是:
h
A
M
I
S
E
=
(
d
∥
K
∥
L
2
2
n
μ
2
(
κ
)
2
∥
Δ
f
∥
L
2
2
)
1
d
+
4
h_{AMISE} = \left( \frac{d \lVert K \rVert^2_{L_2}}{n \mu_2(\kappa)^2 \lVert \Delta f \rVert^2_{L_2}} \right)^{\frac{1}{d+4}}
hAMISE=(nμ2(κ)2∥Δf∥L22d∥K∥L22)d+41
这里:
d
d
d 是数据的维度。
∥
K
∥
L
2
\lVert K \rVert_{L_2}
∥K∥L2 是核函数
K
K
K 的
L
2
L_2
L2 范数。
μ
2
(
κ
)
\mu_2(\kappa)
μ2(κ) 是核函数
κ
\kappa
κ 的二阶矩。
∥
Δ
f
∥
L
2
2
\lVert \Delta f \rVert^2_{L_2}
∥Δf∥L22 是目标函数
f
f
f 的拉普拉斯算子的
L
2
L_2
L2 范数平方。
注意:
未知的
∥
Δ
f
∥
L
2
2
\lVert \Delta f \rVert^2_{L_2}
∥Δf∥L22 :在实际中,目标密度函数
f
f
f 的二阶导数的平方的积分通常是未知的,这使得直接计算
h
A
M
I
S
E
h_{AMISE}
hAMISE 变得困难。
类比单变量情况:在单变量核密度估计中,相应的未知量是目标函数的二阶导数的
L
2
L_2
L2 范数。尽管多变量情况更为复杂,但基本的处理方法类似,即估计或逼近这些未知量。
解决方案
- 数据驱动的带宽选择:实际中,可以采用基于数据的方法来选择或调整带宽。这些方法通常涉及一些形式的交叉验证或者启发式规则,以近似最优带宽。
- 带宽选择器的适应:可以将单变量核密度估计中使用的带宽选择技术扩展和修改,以适应多变量情况。例如,使用插值方法或者基于样本点的局部密度估计来逼近
∥ Δ f ∥ L 2 2 \lVert \Delta f \rVert^2_{L_2} ∥Δf∥L22 。
最小二乘交叉验证(Least squares cross validation, LSCV)
基本原理
LSCV 方法通过最小化一个估计的均方误差来选择带宽。这个估计的均方误差(MISE)由下面的表达式给出:
L
S
C
V
(
h
)
=
∫
R
f
^
(
x
;
h
)
2
d
x
−
2
n
∑
i
=
1
n
f
^
−
i
(
X
i
;
h
)
LSCV(h) = \int_{\mathbb{R}} \hat{f}(x; h)^2 dx - \frac{2}{n} \sum_{i=1}^{n} \hat{f}_{-i}(X_i; h)
LSCV(h)=∫Rf^(x;h)2dx−n2i=1∑nf^−i(Xi;h)
其中:
- f ^ ( x ; h ) \hat{f}(x; h) f^(x;h) 是使用带宽 h h h 的整体核密度估计。
- f ^ − i ( X i ; h ) \hat{f}_{-i}(X_i; h) f^−i(Xi;h) 是在去除第 i i i 个观测点后,使用带宽 h h h 估计在点 X i X_i Xi 处的密度。
组件解释
∫ R f ^ ( x ; h ) 2 d x \int_{\mathbb{R}} \hat{f}(x; h)^2 dx ∫Rf^(x;h)2dx 是核密度估计平方的积分,反映了估计的整体平滑度。
− 2 n ∑ i = 1 n f ^ − i ( X i ; h ) -\frac{2}{n} \sum_{i=1}^n \hat{f}_{-i}(X_i; h) −n2∑i=1nf^−i(Xi;h) 是一个交叉验证项,其中 f ^ − i ( X i ; h ) \hat{f}_{-i}(X_i; h) f^−i(Xi;h) 是对除了第 i i i 个数据点之外的所有数据点计算的密度估计在 X i X_i Xi 的值。这部分用于惩罚过拟合,确保带宽不会过小,从而避免模型对数据的噪声过度敏感。
目标
最小化 L S C V ( h ) LSCV(h) LSCV(h) :通过调整带宽 h h h ,找到使 L S C V ( h ) LSCV(h) LSCV(h) 最小的 h h h 。这个过程通常涉及数值方法,因为 L S C V ( h ) LSCV(h) LSCV(h) 的表达式涉及到积分和求和,可能没有解析解。
这部分讨论了带宽选择中的最小二乘交叉验证(LSCV)方法,但重点从单变量情况扩展到多变量情况,引入了带宽矩阵 (H)。
带宽选择中的带宽矩阵 H H H
在多变量情况下,带宽不再是单一的数值 h h h ,而是一个带宽矩阵 H H H 。带宽矩阵 H H H 是一个对称的正定矩阵,用于在多维空间中控制每个方向上的平滑程度。
最小二乘交叉验证(LSCV)的多维形式
计算方法
LSCV 函数:
L
S
C
V
(
H
)
=
∫
(
f
^
(
x
;
H
)
)
2
d
x
−
2
n
∑
i
=
1
n
f
^
−
i
(
X
i
;
H
)
LSCV(H) = \int (\hat{f}(x; H))^2 \, dx - \frac{2}{n} \sum_{i=1}^n \hat{f}_{-i}(X_i; H)
LSCV(H)=∫(f^(x;H))2dx−n2i=1∑nf^−i(Xi;H)
其中
f
^
(
x
;
H
)
\hat{f}(x; H)
f^(x;H) 是使用带宽矩阵
H
H
H 的多变量核密度估计,而
f
^
−
i
(
X
i
;
H
)
\hat{f}_{-i}(X_i; H)
f^−i(Xi;H) 是在去除第
i
i
i 个数据点后得到的密度估计值。
目标
最小化 L S C V ( H ) LSCV(H) LSCV(H) :寻找最小化 L S C V ( H ) LSCV(H) LSCV(H) 的带宽矩阵 H H H ,这将使得估计误差的均方误差(MISE)最小化。
上图展示了使用最小二乘交叉验证(LSCV)方法确定的带宽矩阵
H
L
S
C
V
H_{LSCV}
HLSCV 来估计黄石公园old faithful间歇泉喷发时间与等待时间的联合密度。
这是一个R语言自带的数据集
data(faithful)
估计的带宽矩阵
H L S C V = ( 0.014 0.111 0.111 11.922 ) H_{LSCV} = \begin{pmatrix} 0.014 & 0.111 \\ 0.111 & 11.922 \end{pmatrix} HLSCV=(0.0140.1110.11111.922)
- 这个矩阵的对角线元素代表各自维度上的带宽大小,而非对角线元素表示不同特征间的相关性调整。
- 带宽矩阵中的元素 0.014 0.014 0.014 和 11.922 11.922 11.922 分别影响喷发时间和等待时间的平滑程度。较小的值 0.014 0.014 0.014 表明喷发时间的变化在密度估计中得到了较高的考虑(较少平滑),而较大的值 11.922 11.922 11.922 表明等待时间被平滑处理得较多。
- 非对角线元素 0.111 0.111 0.111 表示喷发时间和等待时间之间的相关性调整,这对于揭示两者之间可能存在的依赖关系很重要。
核密度图解释
坐标轴
- 横轴表示喷发时间,单位可能是分钟。
- 纵轴表示两次喷发之间的等待时间,同样单位可能是分钟。
等高线
- 图中的等高线表示不同喷发时间和等待时间组合的概率密度。等高线越密集,表示该区域的数据点越集中,即这种喷发时间和等待时间组合的发生概率越高。
每条等高线上的数值代表密度估计的高度,数值越大,表示在该点附近观测到数据点的概率越高。
数据分布特征
- 核密度图显示了至少两个主要的集群区域,表明old faithful的喷发行为可能具有两种不同的模式。一种是喷发时间较短且等待时间较短的模式,另一种是喷发时间较长且等待时间较长的模式。
这两个集群之间存在一定的间隙,表明喷发时间和等待时间的组合在这两种模式之间没有平滑过渡,而是相对分离的。
重要性和应用
- 密度估计的应用:通过这种图形,研究人员可以更好地理解数据的结构和关键特征。例如,在地质研究中,这有助于预测间歇泉的行为。
- 带宽矩阵的选择: H L S C V H_{LSCV} HLSCV 的选择直接影响估计的精度和可靠性。通过最小二乘交叉验证,我们可以找到一个既不过度平滑也不过度敏感的带宽,从而捕捉数据的真实分布。