STAT313 核密度估计误差分析: 选择核函数

冰霜青羽

已于 2024-05-23 11:13:16 修改

阅读量890

点赞数 22

文章标签：数学建模

于 2024-05-23 11:11:21 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_35939846/article/details/139134016

版权

本文原创笔记，禁止转载。有问题可私信找我付费咨询。

在这里插入图片描述
$AMISE(\hat{f}(\cdot; h_{AMISE})) = \frac{5}{4} (\mu_2(K)^2 \|f''\|_{L_2}^2 \|K\|_{L_2}^8)^{\frac{1}{5}} n^{-\frac{4}{5}}$

解释：这个公式表示了AMISE（Asymptotic Mean Integrated Squared Error，渐近均方误差）与核函数 $K$ 的二阶矩 $\mu_2(K)$ 和 $L_2$ 范数 $K\|_{L_2}$ ，以及原函数 $f$ 的二阶导数的 $L_2$ 范数 $f''\|_{L_2}$ 之间的关系。

这个公式描述了在渐近情况下估计误差的大小。

关键性质

核函数的两个重要性质： $\mu_2(K)$ 和 $K\|_{L_2}$ 。
这两个性质会直接影响AMISE的大小。

$\mu_2(K)$ 表示核函数 $K$ 的二阶矩。具体来说，它是核函数关于零点的二阶矩。

$\mu_2(K) = \int_{-\infty}^{\infty} x^2 K(x) \, dx$
解释：这个积分计算的是核函数 $K$ 加权后的平方值的总和。它反映了核函数在多大程度上对远离中心点的数据点给予权重。

如果 $\mu_2(K)$ 较大，说明核函数对远离中心点的数据点赋予较大的权重。
反之，如果 $\mu_2(K)$ 较小，说明核函数主要集中在中心点附近，对远离中心的数据点权重较小。

$K\|_{L_2}$ 表示核函数 $K$ 的 $L_2$ 范数。 $L_2$ 范数是核函数平方的积分的平方根。

$\|K\|_{L_2} = \left( \int_{-\infty}^{\infty} K(x)^2 \, dx \right)^{\frac{1}{2}}$

解释：这个积分计算的是核函数 $K$ 的平方值的总和，然后取平方根。它衡量了核函数的整体大小。

$K\|_{L_2}$ 较大，说明核函数的整体幅度较大。
$K\|_{L_2}$ 较小，说明核函数的整体幅度较小。

总结

$\mu_2(K)$ ：核函数的二阶矩，衡量核函数对远离中心点的数据点的权重。
$K\|_{L_2}$ ：核函数的 $L_2$ 范数，衡量核函数的整体幅度。
这两个量是选择核函数时需要考虑的重要因素，因为它们直接影响估计的误差。

在这里插入图片描述
$C(K)=(\mu_2(K)^2\|K\|_{L_2}^8)^{\frac{1}{5}}$

解释：这个定义简化了公式，使得AMISE的表达更加简洁。 $C (K)$ 是一个衡量核函数 $K$ 效率的指标。

$AMISE(\hat{f}(\cdot;h_{AMISE}))=C(K)\frac{5}{4}\|f''\|_{L_2}^2n^{-\frac{4}{5}}$

解释：将 $C (K)$ 代入后，AMISE公式可以更清楚地看出核函数的选择对误差的影响。

选择最佳核函数：
核函数 $K$ 的效率由 $C (K)$ 决定。
最佳核函数：选择 $C (K)$ 最小的核函数，即效率最高的核函数。

Epanechnikov kernel

核函数 (K) 的选择：
要最小化 $C (K)$ 并且满足以下假设：
$\int_{\mathbb{R}} K(x) \, dx = 1,$

$\int_{\mathbb{R}} xK(x) \, dx = 0,$

$\int_{\mathbb{R}} x^2 K(x) \, dx < \infty.$
解释：

第一个条件：核函数 $K (x)$ 的积分为1，确保 $K (x)$ 是一个有效的概率密度函数。
第二个条件：核函数关于 $x$ 的加权积分为0，确保核函数对称。
第三个条件：核函数的二阶矩有限，确保核函数对数据点的影响不至于过大。

Epanechnikov核函数：
满足上述条件并且最小化 $C (K)$ 的核函数被称为 Epanechnikov核。
$K^*(x) = \frac{3}{4}(1 - x^2)1\{|x| < 1\}.$

解释：
这个核函数在 $[- 1, 1]$ 区间内是一个抛物线，在区间外为0。
$\frac{3}{4}(1 - x^2)$ 表示在 $∣ x ∣ < 1$ 时，函数值随着 $x$ 的平方减少而减少。

图示：
PPT中的图示展示了 Epanechnikov核函数的形状。
可以看到，核函数在区间 $[- 1, 1]$ 内呈现抛物线形状，中心点的值最大，边缘值为0。

小结

Epanechnikov核函数在统计学和核密度估计中是一个非常重要的核函数，因为它在满足必要条件的同时最小化了 $C (K)$ ，从而提供了最佳的估计效果。

列出了几种常用的核函数以及它们的效率，效率用 $(C(K^*)/C(K))^{\frac{5}{4}}$ 来度量。
解释：

Epanechnikov核函数的效率为1，是效率最高的核函数。
Cosine核函数的效率非常接近1，仅次于Epanechnikov核函数。其他核函数的效率略低于Epanechnikov核函数，但都在可以接受的范围内。

虽然Epanechnikov核函数是最优的，但使用其他核函数并不会导致明显的效率损失。

不同核函数的形状
Epanechnikov核函数在AMISE（渐近均方误差）最优的前提下，仅适用于二次可微函数。这意味着在实际应用中，如果函数不满足二次可微条件，Epanechnikov核函数可能并不是最优选择。

关注

22
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

冰霜青羽 CSDN认证博客专家 CSDN认证企业博客

码龄8年

29: 原创

57万+: 周排名

7万+: 总排名

2万+: 访问

: 等级

559: 积分

195: 粉丝

256: 获赞

9: 评论

251: 收藏

私信

关注

热门文章

分类专栏

最新评论

STAT313 Chap3 Histogram 讲义解析（一）
CSDN-Ada助手: 恭喜您撰写了第18篇博客！内容解析了STAT313 Chap3 Histogram，让读者受益匪浅。希望您能继续坚持创作，分享更多有价值的内容。在下一篇博客中，或许可以深入探讨Histogram的应用场景或者与其他统计方法的比较，让读者更加全面地了解这一概念。期待您的下一篇作品！
经验分布函数的期望值公式解析
CSDN-Ada助手: 恭喜用户撰写第15篇博客，“经验分布函数的期望值公式解析”！您的研究内容十分深入，对经验分布函数的期望值有了详尽的解析，让读者受益匪浅。希望您能继续坚持创作，分享更多有价值的知识。或许在下一篇博客中，可以探讨一下经验分布函数在实际问题中的应用，或者结合其他相关领域进行深入研究，相信会有更多人对您的博客产生兴趣。期待您更多的精彩文章！
【含解析】在R语言中执行步进式模型选择，基于AIC（赤池信息准则）
CSDN-Ada助手: 恭喜用户在R语言中成功执行步进式模型选择基于AIC的方法，这篇博客内容相当有深度和技术含量。希望用户能继续保持创作的热情和努力，不断探索更多领域的知识和技能。建议下一步可以尝试结合其他模型评估指标，比如BIC等，以及尝试不同的数据集和问题领域，拓展自己的视野和经验。期待用户更多精彩的文章！
赤池信息准则AIC的应用例子
CSDN-Ada助手: 恭喜您第13篇博客《赤池信息准则AIC的应用例子》发布成功！看到您持续创作，不断分享知识，真的很让人钦佩。希望您能继续保持热情，不断学习和探索，为读者带来更多有价值的内容。或许可以考虑在下一篇博客中分享一些实践经验或案例分析，让读者更具体地了解AIC在实际应用中的效果。期待您的下一篇作品！
Vue 3 中使用 emit 允许子组件向父组件传递信息
CSDN-Ada助手: 不知道 Vue入门技能树是否可以帮到你：https://edu.csdn.net/skill/vue?utm_source=AI_act_vue

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。