频率学派和贝叶斯学派

最新推荐文章于 2021-08-30 19:35:11 发布

执着的蜗牛慢慢来

最新推荐文章于 2021-08-30 19:35:11 发布

阅读量234

点赞数 1

分类专栏：统计机器学习文章标签：机器学习概率论

本文链接：https://blog.csdn.net/qq_21906523/article/details/110732399

版权

统计机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

频率学派和贝叶斯学派

概率模型的训练过程其实是参数估计(parameter estimation)的过程。对于参数的估计，统计学界的两个学派提供了各自的解决方案：频率学派(Frequentist)认为参数虽然未知，但却是客观存在的固定值，所以可以通过优化似然函数等准则来确定参数值；贝叶斯学派(Bayesian)则认为参数是未观察到的随机变量，其本身也有分布，因此，可假设参数服从一个先验分布，然后基于观测到的数据来计算参数的后验分布。

定义数据集如下：

$X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}$
$N$ 个样本，每个样本都是 $p$ 维向量，表示每个样本具有 $p$ 个特征。我们假设每个观测都是由 $p(x|\theta)$ 生成。

频率派

$p(x|\theta)$ 中的 $\theta$ 是一个固定的参数。对于 $N$ 个独立观测来说观测集的联合概率为 $p\left( x|\theta \right) =\prod_{i=1}^N{p\left( x_i|\theta \right)}$
对于 $\theta$ 的求解，我们采用最大对数似然估计（Maximum likelihood estimate，MLE）：

$\hat{\theta}_{MLE}=arg\underset{\theta}{\max}\log p\left( x|\theta \right) =arg\underset{\theta}{\max}\sum_i^N{\log p\left( x_i|\theta \right)}$

贝叶斯派

贝叶斯派认为 $p(x|\theta)$ 的参数 $\theta$ 是一个未观测到的随机变量且满足某个先验分布，我们这里假设 $\theta\sim p(\theta)$ 。根据贝叶斯定理，基于观测集参数的后验分布求法如下

$p\left( \theta |x \right) =\frac{p\left( x|\theta \right) \cdot p\left( \theta \right)}{p\left( x \right)}=\frac{p\left( x|\theta \right) \cdot p\left( \theta \right)}{\int\limits_{\theta}{p}\left( x|\theta \right) \cdot p\left( \theta \right) d\theta}\propto p\left( x|\theta \right) \cdot p\left( \theta \right)$
其中$p\left( x|\theta \right) $叫做似然。

求 $\theta$ 的值，我们使用最大后验概率（maximum a posteriori probability，MAP）方法

$\hat{\theta}_{MAP}=arg\underset{\theta}{\max}p\left( \theta |x \right) =arg\underset{\theta}{\max}p\left( x|\theta \right) \cdot p\left( \theta \right)$

得到 $\theta$ 后，便得到其后验概率
$p\left( \theta |x \right) =\frac{p\left( x|\theta \right) \cdot p\left( \theta \right)}{\int\limits_{\theta}{p}\left( x|\theta \right) \cdot p\left( \theta \right) d\theta}$