STAT313 核密度估计误差分析: 选择核函数

本文原创笔记,禁止转载。有问题可私信找我付费咨询。

在这里插入图片描述
A M I S E ( f ^ ( ⋅ ; h A M I S E ) ) = 5 4 ( μ 2 ( K ) 2 ∥ f ′ ′ ∥ L 2 2 ∥ K ∥ L 2 8 ) 1 5 n − 4 5 AMISE(\hat{f}(\cdot; h_{AMISE})) = \frac{5}{4} (\mu_2(K)^2 \|f''\|_{L_2}^2 \|K\|_{L_2}^8)^{\frac{1}{5}} n^{-\frac{4}{5}} AMISE(f^(;hAMISE))=45(μ2(K)2f′′L22KL28)51n54

解释:这个公式表示了AMISE(Asymptotic Mean Integrated Squared Error,渐近均方误差)与核函数 K K K 的二阶矩 μ 2 ( K ) \mu_2(K) μ2(K) L 2 L_2 L2 范数 ∥ K ∥ L 2 \|K\|_{L_2} KL2 ,以及原函数 f f f 的二阶导数的 L 2 L_2 L2 范数 ∥ f ′ ′ ∥ L 2 \|f''\|_{L_2} f′′L2 之间的关系。

这个公式描述了在渐近情况下估计误差的大小。


关键性质

核函数的两个重要性质: μ 2 ( K ) \mu_2(K) μ2(K) ∥ K ∥ L 2 \|K\|_{L_2} KL2
这两个性质会直接影响AMISE的大小。

μ 2 ( K ) \mu_2(K) μ2(K) 表示核函数 K K K 的二阶矩。具体来说,它是核函数关于零点的二阶矩。

μ 2 ( K ) = ∫ − ∞ ∞ x 2 K ( x )   d x \mu_2(K) = \int_{-\infty}^{\infty} x^2 K(x) \, dx μ2(K)=x2K(x)dx
解释:这个积分计算的是核函数 K K K 加权后的平方值的总和。它反映了核函数在多大程度上对远离中心点的数据点给予权重。

如果 μ 2 ( K ) \mu_2(K) μ2(K) 较大,说明核函数对远离中心点的数据点赋予较大的权重。
反之,如果 μ 2 ( K ) \mu_2(K) μ2(K) 较小,说明核函数主要集中在中心点附近,对远离中心的数据点权重较小。


∥ K ∥ L 2 \|K\|_{L_2} KL2 表示核函数 K K K L 2 L_2 L2 范数。 L 2 L_2 L2 范数是核函数平方的积分的平方根。

∥ K ∥ L 2 = ( ∫ − ∞ ∞ K ( x ) 2   d x ) 1 2 \|K\|_{L_2} = \left( \int_{-\infty}^{\infty} K(x)^2 \, dx \right)^{\frac{1}{2}} KL2=(K(x)2dx)21

解释:这个积分计算的是核函数 K K K 的平方值的总和,然后取平方根。它衡量了核函数的整体大小。

∥ K ∥ L 2 \|K\|_{L_2} KL2 较大,说明核函数的整体幅度较大。
∥ K ∥ L 2 \|K\|_{L_2} KL2 较小,说明核函数的整体幅度较小。

总结

μ 2 ( K ) \mu_2(K) μ2(K) :核函数的二阶矩,衡量核函数对远离中心点的数据点的权重。
∥ K ∥ L 2 \|K\|_{L_2} KL2 :核函数的 L 2 L_2 L2 范数,衡量核函数的整体幅度。
这两个量是选择核函数时需要考虑的重要因素,因为它们直接影响估计的误差。


在这里插入图片描述
C ( K ) = ( μ 2 ( K ) 2 ∥ K ∥ L 2 8 ) 1 5 C(K)=(\mu_2(K)^2\|K\|_{L_2}^8)^{\frac{1}{5}} C(K)=(μ2(K)2KL28)51

解释:这个定义简化了公式,使得AMISE的表达更加简洁。 C ( K ) C(K) C(K) 是一个衡量核函数 K K K 效率的指标。

A M I S E ( f ^ ( ⋅ ; h A M I S E ) ) = C ( K ) 5 4 ∥ f ′ ′ ∥ L 2 2 n − 4 5 AMISE(\hat{f}(\cdot;h_{AMISE}))=C(K)\frac{5}{4}\|f''\|_{L_2}^2n^{-\frac{4}{5}} AMISE(f^(;hAMISE))=C(K)45f′′L22n54

解释:将 C ( K ) C(K) C(K) 代入后,AMISE公式可以更清楚地看出核函数的选择对误差的影响。

选择最佳核函数
核函数 K K K 的效率由 C ( K ) C(K) C(K) 决定。
最佳核函数:选择 C ( K ) C(K) C(K) 最小的核函数,即效率最高的核函数。


Epanechnikov kernel

  1. 核函数 (K) 的选择
    要最小化 C ( K ) C(K) C(K) 并且满足以下假设:
    ∫ R K ( x )   d x = 1 , \int_{\mathbb{R}} K(x) \, dx = 1, RK(x)dx=1,

∫ R x K ( x )   d x = 0 , \int_{\mathbb{R}} xK(x) \, dx = 0, RxK(x)dx=0,

∫ R x 2 K ( x )   d x < ∞ . \int_{\mathbb{R}} x^2 K(x) \, dx < \infty. Rx2K(x)dx<∞.
解释

  • 第一个条件:核函数 K ( x ) K(x) K(x) 的积分为1,确保 K ( x ) K(x) K(x) 是一个有效的概率密度函数。
  • 第二个条件:核函数关于 x x x 的加权积分为0,确保核函数对称。
  • 第三个条件:核函数的二阶矩有限,确保核函数对数据点的影响不至于过大。

Epanechnikov核函数
满足上述条件并且最小化 C ( K ) C(K) C(K) 的核函数被称为 Epanechnikov核。
K ∗ ( x ) = 3 4 ( 1 − x 2 ) 1 { ∣ x ∣ < 1 } . K^*(x) = \frac{3}{4}(1 - x^2)1\{|x| < 1\}. K(x)=43(1x2)1{x<1}.

解释
这个核函数在 [ − 1 , 1 ] [-1, 1] [1,1] 区间内是一个抛物线,在区间外为0。
3 4 ( 1 − x 2 ) \frac{3}{4}(1 - x^2) 43(1x2) 表示在 ∣ x ∣ < 1 |x| < 1 x<1 时,函数值随着 x x x 的平方减少而减少。

图示
PPT中的图示展示了 Epanechnikov核函数的形状。
可以看到,核函数在区间 [ − 1 , 1 ] [-1, 1] [1,1] 内呈现抛物线形状,中心点的值最大,边缘值为0。

小结

Epanechnikov核函数在统计学和核密度估计中是一个非常重要的核函数,因为它在满足必要条件的同时最小化了 C ( K ) C(K) C(K) ,从而提供了最佳的估计效果。


列出了几种常用的核函数以及它们的效率,效率用 ( C ( K ∗ ) / C ( K ) ) 5 4 (C(K^*)/C(K))^{\frac{5}{4}} (C(K)/C(K))45 来度量。
解释

  • Epanechnikov核函数的效率为1,是效率最高的核函数。
  • Cosine核函数的效率非常接近1,仅次于Epanechnikov核函数。 其他核函数的效率略低于Epanechnikov核函数,但都在可以接受的范围内。

虽然Epanechnikov核函数是最优的,但使用其他核函数并不会导致明显的效率损失。

不同核函数的形状
Epanechnikov核函数在AMISE(渐近均方误差)最优的前提下,仅适用于二次可微函数。这意味着在实际应用中,如果函数不满足二次可微条件,Epanechnikov核函数可能并不是最优选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值