频率派统计(frequentist statistics)和贝叶斯统计(Bayesian Statistics) - 机器学习基础

最新推荐文章于 2025-03-05 21:16:27 发布

从流域到海域

最新推荐文章于 2025-03-05 21:16:27 发布

阅读量3.5k

点赞数 1

分类专栏：深度学习与机器学习文章标签： Bayesian Statics Frequentist Statics Maximum Likelihood Estimation

本文链接：https://blog.csdn.net/Solo95/article/details/90729784

版权

深度学习与机器学习专栏收录该内容

79 篇文章

订阅专栏

本文对比了频率派统计与贝叶斯统计在深度学习中的应用。频率派统计将真实参数视为固定但未知，而贝叶斯统计则将其视为随机变量，使用先验概率分布表达不确定性。贝叶斯方法在参数估计上考虑了全分布，而非单一的点估计，这有助于避免过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

内容总结自自花书《deep learning》Chapter 5，由英文版翻译而来。英文版官网可以免费查阅：http://www.deeplearningbook.org/

频率派统计(frequentist statistics)

在频率派估计的观点下，真实参数集 $\pmb{\theta}$ 是固定的但未知，我们使用作为数据集函数的随机变量 $\hat{\pmb{\theta}}$ 作为点估计。频率派统计基于 $\hat{\pmb{\theta}}$ 作所有的预测。

贝叶斯统计(Bayesian Statistics)

贝叶斯派的观点完全不同。贝叶斯使用概率来反映知识状态的确定程度。数据集是直接能够观测到因而不是随机的。贝叶斯派认为真实 $\pmb{\theta}$ 是未知的或不确定的，因此以一个随机变量来表示。（注意在上一小节中， $\hat{\pmb{\theta}}$ 是随机变量而不是 $\pmb{\theta}$ 。）

在观测数据之前，我们使用先验概率分布 $p(\pmb{\theta})$ 来表示我们(已知的)关于 $\pmb{\theta}$ 的知识。一般来说，机器学习实践者会使用一个比较宽泛(高熵)的先验分布，反映了在观测任何数据之前对 $\pmb{\theta}$ 值的不确定性。

在使用贝叶斯估计的典型场景下，先验一般以一个高熵的相对而言均匀分布或高斯分布开始，对数据的观测会使得后验损失熵并且集中在一些非常接近参数的值附近。

贝叶斯统计(Bayesian Statistics)与最大似然估计(maximum likelihood estimation)

注：最大似然估计是点估计的一种常用的方法，也就是频率派估计的一种。

相较于最大似然估计，贝叶斯估计有两个不同的地方。第一，不同于最大似然估计方法使用 $\pmb{\theta}$ 的一个点估计来做预测，贝叶斯方法使用在 $\pmb{\theta}$ 上的全分布来做预测。
在这里插入图片描述
频率派方法通过评估方差来解决给定 $\pmb{\theta}$ 的点估计的不确定性。一个估计器(estimator)的方差是对在观测数据的不同采样下估计会如何变化的评定。贝叶斯通过简单地在其上积分来应对不确定性，这倾向于防止过拟合。积分只是概率规则的一次应用，这使得贝叶斯方法容易被验证。而频率派的机制是基于特定的决策对使用点估计表示的数据集中包含的知识做累加。