STAT313 Chap5 多变量核密度估计带宽选择（下）

冰霜青羽

于 2024-06-06 14:47:16 发布

阅读量700

点赞数 8

文章标签：多变量核密度估计核密度估计带宽选择直接插入法 DPI 统计学计算统计

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_35939846/article/details/139500129

版权

本文原创笔记，禁止转载。有问题可私信付费找我咨询。

直接插入法

直接插入法的基本步骤

步骤1：计算初始估计（Pilot Estimate）

选择一个初始的带宽矩阵 $\mathbf{G}$ 和核函数 $L$ 。
计算初始密度估计：
$\tilde{f}(x, \mathbf{G}) = \frac{1}{n} \sum_{i=1}^{n} L_{\mathbf{G}}(x - X_i)$
这里 $L_{\mathbf{G}}(x - X_i)$ 表示使用带宽矩阵 $\mathbf{G}$ 的核函数 $L$ 。

步骤2：估计未知量 $\|\Delta f\|_{L_2}^2$

计算初始估计的拉普拉斯量 $\Delta \tilde{f}(x, \mathbf{G})$
具体计算方式依赖于你的核函数和数据分布，可以使用数值微分或其他方法。
计算初始估计的 $L_2$ 范数的平方：
$\|\Delta \tilde{f}(\cdot; \mathbf{G})\|_{L_2}^2 = \int_{\mathbb{R}^d} (\Delta \tilde{f}(x, \mathbf{G}))^2 dx$
这个步骤通常需要使用数值积分来计算。

步骤3：带入公式计算带宽矩阵 $\mathbf{h}_{AMISE}$

使用估计的 $\|\Delta \tilde{f}(\cdot; \mathbf{G})\|_{L_2}^2$ ，带入带宽选择公式：
$h_{AMISE} = \left( \frac{d \|K\|_{L_2}^2}{n \mu_2(\kappa)^2 \|\Delta \tilde{f}(\cdot; \mathbf{G})\|_{L_2}^2} \right)^{\frac{1}{d+4}}$
这里：

$d$ ：数据的维度。
$K\|_{L_2}^2$ ：核函数 $K$ 的 $L_2$ 范数的平方，可以通过先验知识或数值计算得到。
$n$ ：样本数量。
$\mu_2(\kappa)$ ：二阶矩，这也是先验知识或数值计算得到。

总结

初始带宽矩阵选择：选择一个初始的带宽矩阵 $\mathbf{G}$ ，比如可以使用Silverman’s规则或Scott’s规则。
初始密度估计：计算初始密度估计 $\tilde{f}(x, \mathbf{G})$ 。
估计拉普拉斯量：计算初始密度估计的拉普拉斯量，并计算其 $L_2$ 范数的平方。
计算最终带宽矩阵：将上一步得到的估计值带入带宽选择公式，得到最终的带宽矩阵 $\mathbf{h}_{AMISE}$

计算 $\lVert \Delta \hat{f}(\cdot, G) \rVert^2_{L_2}$ 可能涉及复杂的数值计算，尤其是在多维数据的情况下。
选择合适的 $G$ 和 $L$ 对最终带宽选择的精度和核密度估计的质量有显著影响。

核密度图的区别

等高线的密集程度：
在使用 LSCV 方法的图中，等高线在某些区域更为密集，尤其是中心区域，表明数据点在这些区域集中度更高。
使用 DPI 方法的图中，等高线相对更分散，尤其是在较大等待时间的区域，显示了更宽的密度分布。
细节的捕捉：
LSCV 方法得到的图形显示了更多的细节变化，尤其是在等待时间较短的区域。
DPI 方法则在等待时间较长的区域展现了更平滑的过渡，可能更适合揭示大尺度的数据分布特征。

带宽矩阵的影响

LSCV 带宽矩阵 $H_{LSCV} = \begin{pmatrix} 0.014 & 0.111 \\ 0.111 & 11.922 \end{pmatrix}$ 提示了在喷发时间维度上使用了较小的带宽，使得喷发时间的变化更加精细地被捕捉。

DPI 带宽矩阵 $H_{DPI} = \begin{pmatrix} 0.063 & 0.604 \\ 0.604 & 11.192 \end{pmatrix}$ 在两个维度上都使用了相对较大的带宽，特别是在喷发时间上，从而导致了更宽泛的密度估计。

结论

LSCV 方法 通过较小的带宽在喷发时间上提供了较高的灵敏度，适用于分析需要突出局部特征的场景。

DPI 方法 通过较大的带宽提供了一个平滑且广泛的视角，适合于观察整体趋势和较为广泛的数据分布。

总体来说，选择哪种方法取决于具体的分析需求和数据特性。如果需要详细捕捉局部变化，LSCV 方法可能更为适宜；如果关注于大规模的趋势和模式，DPI 方法可能提供更好的视图。在实际应用中，理解每种方法的特点和适用场景是选择合适带宽方法的关键。如果你需要进一步了解这些方法或有其他数据分析问题，欢迎继续咨询。

在选择带宽方法时，需要考虑数据分析的目标：