本文原创笔记,禁止转载。有问题可私信找我付费咨询。
A
M
I
S
E
(
f
^
(
⋅
;
h
A
M
I
S
E
)
)
=
5
4
(
μ
2
(
K
)
2
∥
f
′
′
∥
L
2
2
∥
K
∥
L
2
8
)
1
5
n
−
4
5
AMISE(\hat{f}(\cdot; h_{AMISE})) = \frac{5}{4} (\mu_2(K)^2 \|f''\|_{L_2}^2 \|K\|_{L_2}^8)^{\frac{1}{5}} n^{-\frac{4}{5}}
AMISE(f^(⋅;hAMISE))=45(μ2(K)2∥f′′∥L22∥K∥L28)51n−54
解释:这个公式表示了AMISE(Asymptotic Mean Integrated Squared Error,渐近均方误差)与核函数 K K K 的二阶矩 μ 2 ( K ) \mu_2(K) μ2(K) 和 L 2 L_2 L2 范数 ∥ K ∥ L 2 \|K\|_{L_2} ∥K∥L2 ,以及原函数 f f f 的二阶导数的 L 2 L_2 L2 范数 ∥ f ′ ′ ∥ L 2 \|f''\|_{L_2} ∥f′′∥L2 之间的关系。
这个公式描述了在渐近情况下估计误差的大小。
关键性质
核函数的两个重要性质:
μ
2
(
K
)
\mu_2(K)
μ2(K) 和
∥
K
∥
L
2
\|K\|_{L_2}
∥K∥L2 。
这两个性质会直接影响AMISE的大小。
μ 2 ( K ) \mu_2(K) μ2(K) 表示核函数 K K K 的二阶矩。具体来说,它是核函数关于零点的二阶矩。
μ
2
(
K
)
=
∫
−
∞
∞
x
2
K
(
x
)
d
x
\mu_2(K) = \int_{-\infty}^{\infty} x^2 K(x) \, dx
μ2(K)=∫−∞∞x2K(x)dx
解释:这个积分计算的是核函数
K
K
K 加权后的平方值的总和。它反映了核函数在多大程度上对远离中心点的数据点给予权重。
如果
μ
2
(
K
)
\mu_2(K)
μ2(K) 较大,说明核函数对远离中心点的数据点赋予较大的权重。
反之,如果
μ
2
(
K
)
\mu_2(K)
μ2(K) 较小,说明核函数主要集中在中心点附近,对远离中心的数据点权重较小。
∥ K ∥ L 2 \|K\|_{L_2} ∥K∥L2 表示核函数 K K K 的 L 2 L_2 L2 范数。 L 2 L_2 L2 范数是核函数平方的积分的平方根。
∥ K ∥ L 2 = ( ∫ − ∞ ∞ K ( x ) 2 d x ) 1 2 \|K\|_{L_2} = \left( \int_{-\infty}^{\infty} K(x)^2 \, dx \right)^{\frac{1}{2}} ∥K∥L2=(∫−∞∞K(x)2dx)21
解释:这个积分计算的是核函数 K K K 的平方值的总和,然后取平方根。它衡量了核函数的整体大小。
∥
K
∥
L
2
\|K\|_{L_2}
∥K∥L2 较大,说明核函数的整体幅度较大。
∥
K
∥
L
2
\|K\|_{L_2}
∥K∥L2 较小,说明核函数的整体幅度较小。
总结
μ
2
(
K
)
\mu_2(K)
μ2(K) :核函数的二阶矩,衡量核函数对远离中心点的数据点的权重。
∥
K
∥
L
2
\|K\|_{L_2}
∥K∥L2 :核函数的
L
2
L_2
L2 范数,衡量核函数的整体幅度。
这两个量是选择核函数时需要考虑的重要因素,因为它们直接影响估计的误差。
C
(
K
)
=
(
μ
2
(
K
)
2
∥
K
∥
L
2
8
)
1
5
C(K)=(\mu_2(K)^2\|K\|_{L_2}^8)^{\frac{1}{5}}
C(K)=(μ2(K)2∥K∥L28)51
解释:这个定义简化了公式,使得AMISE的表达更加简洁。 C ( K ) C(K) C(K) 是一个衡量核函数 K K K 效率的指标。
A M I S E ( f ^ ( ⋅ ; h A M I S E ) ) = C ( K ) 5 4 ∥ f ′ ′ ∥ L 2 2 n − 4 5 AMISE(\hat{f}(\cdot;h_{AMISE}))=C(K)\frac{5}{4}\|f''\|_{L_2}^2n^{-\frac{4}{5}} AMISE(f^(⋅;hAMISE))=C(K)45∥f′′∥L22n−54
解释:将 C ( K ) C(K) C(K) 代入后,AMISE公式可以更清楚地看出核函数的选择对误差的影响。
选择最佳核函数:
核函数
K
K
K 的效率由
C
(
K
)
C(K)
C(K) 决定。
最佳核函数:选择
C
(
K
)
C(K)
C(K) 最小的核函数,即效率最高的核函数。
- 核函数 (K) 的选择:
要最小化 C ( K ) C(K) C(K) 并且满足以下假设:
∫ R K ( x ) d x = 1 , \int_{\mathbb{R}} K(x) \, dx = 1, ∫RK(x)dx=1,
∫ R x K ( x ) d x = 0 , \int_{\mathbb{R}} xK(x) \, dx = 0, ∫RxK(x)dx=0,
∫
R
x
2
K
(
x
)
d
x
<
∞
.
\int_{\mathbb{R}} x^2 K(x) \, dx < \infty.
∫Rx2K(x)dx<∞.
解释:
- 第一个条件:核函数 K ( x ) K(x) K(x) 的积分为1,确保 K ( x ) K(x) K(x) 是一个有效的概率密度函数。
- 第二个条件:核函数关于 x x x 的加权积分为0,确保核函数对称。
- 第三个条件:核函数的二阶矩有限,确保核函数对数据点的影响不至于过大。
Epanechnikov核函数:
满足上述条件并且最小化
C
(
K
)
C(K)
C(K) 的核函数被称为 Epanechnikov核。
K
∗
(
x
)
=
3
4
(
1
−
x
2
)
1
{
∣
x
∣
<
1
}
.
K^*(x) = \frac{3}{4}(1 - x^2)1\{|x| < 1\}.
K∗(x)=43(1−x2)1{∣x∣<1}.
解释:
这个核函数在
[
−
1
,
1
]
[-1, 1]
[−1,1] 区间内是一个抛物线,在区间外为0。
3
4
(
1
−
x
2
)
\frac{3}{4}(1 - x^2)
43(1−x2) 表示在
∣
x
∣
<
1
|x| < 1
∣x∣<1 时,函数值随着
x
x
x 的平方减少而减少。
图示:
PPT中的图示展示了 Epanechnikov核函数的形状。
可以看到,核函数在区间
[
−
1
,
1
]
[-1, 1]
[−1,1] 内呈现抛物线形状,中心点的值最大,边缘值为0。
小结
Epanechnikov核函数在统计学和核密度估计中是一个非常重要的核函数,因为它在满足必要条件的同时最小化了 C ( K ) C(K) C(K) ,从而提供了最佳的估计效果。
列出了几种常用的核函数以及它们的效率,效率用
(
C
(
K
∗
)
/
C
(
K
)
)
5
4
(C(K^*)/C(K))^{\frac{5}{4}}
(C(K∗)/C(K))45 来度量。
解释:
- Epanechnikov核函数的效率为1,是效率最高的核函数。
- Cosine核函数的效率非常接近1,仅次于Epanechnikov核函数。 其他核函数的效率略低于Epanechnikov核函数,但都在可以接受的范围内。
虽然Epanechnikov核函数是最优的,但使用其他核函数并不会导致明显的效率损失。
Epanechnikov核函数在AMISE(渐近均方误差)最优的前提下,仅适用于二次可微函数。这意味着在实际应用中,如果函数不满足二次可微条件,Epanechnikov核函数可能并不是最优选择。