STAT313 Chap5 多变量核密度估计带宽选择(下)

本文原创笔记,禁止转载。有问题可私信付费找我咨询。

直接插入法

直接插入法的基本步骤

步骤1:计算初始估计(Pilot Estimate)

  1. 选择一个初始的带宽矩阵 G \mathbf{G} G 和核函数 L L L
  2. 计算初始密度估计:
    f ~ ( x , G ) = 1 n ∑ i = 1 n L G ( x − X i ) \tilde{f}(x, \mathbf{G}) = \frac{1}{n} \sum_{i=1}^{n} L_{\mathbf{G}}(x - X_i) f~(x,G)=n1i=1nLG(xXi)
    这里 L G ( x − X i ) L_{\mathbf{G}}(x - X_i) LG(xXi) 表示使用带宽矩阵 G \mathbf{G} G 的核函数 L L L

步骤2:估计未知量 ∥ Δ f ∥ L 2 2 \|\Delta f\|_{L_2}^2 ∥ΔfL22

  1. 计算初始估计的拉普拉斯量 Δ f ~ ( x , G ) \Delta \tilde{f}(x, \mathbf{G}) Δf~(x,G)
    具体计算方式依赖于你的核函数和数据分布,可以使用数值微分或其他方法。
  2. 计算初始估计的 L 2 L_2 L2 范数的平方:
    ∥ Δ f ~ ( ⋅ ; G ) ∥ L 2 2 = ∫ R d ( Δ f ~ ( x , G ) ) 2 d x \|\Delta \tilde{f}(\cdot; \mathbf{G})\|_{L_2}^2 = \int_{\mathbb{R}^d} (\Delta \tilde{f}(x, \mathbf{G}))^2 dx ∥Δf~(;G)L22=Rd(Δf~(x,G))2dx
    这个步骤通常需要使用数值积分来计算。

步骤3:带入公式计算带宽矩阵 h A M I S E \mathbf{h}_{AMISE} hAMISE

  1. 使用估计的 ∥ Δ f ~ ( ⋅ ; G ) ∥ L 2 2 \|\Delta \tilde{f}(\cdot; \mathbf{G})\|_{L_2}^2 ∥Δf~(;G)L22 ,带入带宽选择公式:
    h A M I S E = ( d ∥ K ∥ L 2 2 n μ 2 ( κ ) 2 ∥ Δ f ~ ( ⋅ ; G ) ∥ L 2 2 ) 1 d + 4 h_{AMISE} = \left( \frac{d \|K\|_{L_2}^2}{n \mu_2(\kappa)^2 \|\Delta \tilde{f}(\cdot; \mathbf{G})\|_{L_2}^2} \right)^{\frac{1}{d+4}} hAMISE=(nμ2(κ)2∥Δf~(;G)L22dKL22)d+41
    这里:
  • d d d :数据的维度。
  • ∥ K ∥ L 2 2 \|K\|_{L_2}^2 KL22 :核函数 K K K L 2 L_2 L2 范数的平方,可以通过先验知识或数值计算得到。
  • n n n :样本数量。
  • μ 2 ( κ ) \mu_2(\kappa) μ2(κ) :二阶矩,这也是先验知识或数值计算得到。

总结

  1. 初始带宽矩阵选择:选择一个初始的带宽矩阵 G \mathbf{G} G ,比如可以使用Silverman’s规则或Scott’s规则。
  2. 初始密度估计:计算初始密度估计 f ~ ( x , G ) \tilde{f}(x, \mathbf{G}) f~(x,G)
  3. 估计拉普拉斯量:计算初始密度估计的拉普拉斯量,并计算其 L 2 L_2 L2 范数的平方。
  4. 计算最终带宽矩阵:将上一步得到的估计值带入带宽选择公式,得到最终的带宽矩阵 h A M I S E \mathbf{h}_{AMISE} hAMISE

计算 ∥ Δ f ^ ( ⋅ , G ) ∥ L 2 2 \lVert \Delta \hat{f}(\cdot, G) \rVert^2_{L_2} Δf^(,G)L22 可能涉及复杂的数值计算,尤其是在多维数据的情况下。
选择合适的 G G G L L L 对最终带宽选择的精度和核密度估计的质量有显著影响。


核密度图的区别

  1. 等高线的密集程度
    在使用 LSCV 方法的图中,等高线在某些区域更为密集,尤其是中心区域,表明数据点在这些区域集中度更高。
    使用 DPI 方法的图中,等高线相对更分散,尤其是在较大等待时间的区域,显示了更宽的密度分布。
  2. 细节的捕捉
    LSCV 方法得到的图形显示了更多的细节变化,尤其是在等待时间较短的区域。
    DPI 方法则在等待时间较长的区域展现了更平滑的过渡,可能更适合揭示大尺度的数据分布特征。

带宽矩阵的影响

LSCV 带宽矩阵 H L S C V = ( 0.014 0.111 0.111 11.922 ) H_{LSCV} = \begin{pmatrix} 0.014 & 0.111 \\ 0.111 & 11.922 \end{pmatrix} HLSCV=(0.0140.1110.11111.922) 提示了在喷发时间维度上使用了较小的带宽,使得喷发时间的变化更加精细地被捕捉。

DPI 带宽矩阵 H D P I = ( 0.063 0.604 0.604 11.192 ) H_{DPI} = \begin{pmatrix} 0.063 & 0.604 \\ 0.604 & 11.192 \end{pmatrix} HDPI=(0.0630.6040.60411.192) 在两个维度上都使用了相对较大的带宽,特别是在喷发时间上,从而导致了更宽泛的密度估计。

结论

LSCV 方法 通过较小的带宽在喷发时间上提供了较高的灵敏度,适用于分析需要突出局部特征的场景。

DPI 方法 通过较大的带宽提供了一个平滑且广泛的视角,适合于观察整体趋势和较为广泛的数据分布。

总体来说,选择哪种方法取决于具体的分析需求和数据特性。如果需要详细捕捉局部变化,LSCV 方法可能更为适宜;如果关注于大规模的趋势和模式,DPI 方法可能提供更好的视图。在实际应用中,理解每种方法的特点和适用场景是选择合适带宽方法的关键。如果你需要进一步了解这些方法或有其他数据分析问题,欢迎继续咨询。


在选择带宽方法时,需要考虑数据分析的目标:

  • 如果目的是详细分析数据的微观结构,如确定不同类型的喷发模式及其变异,LSCV 方法更为合适。

  • 如果分析的重点是观察整体趋势和模式,或者数据在某些区域较为稀疏,DPI 方法提供了一种更加平滑的视图,有助于避免过拟合。

  • 8
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值