再谈贝叶斯学派与频率学派的区别

最新推荐文章于 2024-08-09 08:21:57 发布

五道口纳什

最新推荐文章于 2024-08-09 08:21:57 发布

阅读量7.6k

点赞数 2

分类专栏：概率-统计

本文链接：https://blog.csdn.net/lanchunhui/article/details/50545179

版权

概率-统计专栏收录该内容

74 篇文章 21 订阅

订阅专栏

频率主义（Frequentism）与贝叶斯主义（Bayesianism）的哲学辨异与实践（Python仿真）

从 Beta_Binomial共轭分布开始说起：

B e t a (p | α, β) + B i n o m C o u n t (m 1, m 2) = B e t a (p | α + m 1, β + m 2)

$Beta(p|\alpha, \beta) + BinomCount(m_1,m_2) = Beta(p|\alpha+m_1, \beta+m_2)$

一个小小的特例为：

B e t a (p | 1, 1) + B i n o m C o u n t (α - 1, β - 1) = B e t a (p | α, β)

$Beta(p|1,1) + BinomCount(\alpha-1,\beta-1)=Beta(p|\alpha, \beta)$

而 $Beta(p|1,1)$ 恰好正是均匀分布 $U[0,1]$ （概率密度恒等于1，且与 $p$ 无关）
假设有一个不均匀的（或者说均匀与否不可知）的硬币抛出正面的概率为 $p$ ，抛 $m$ 次后出现正面和反面的次数分别是 $m_1,m_2$ ，那么按传统的频率学派观点， $p$ 的估计值应该为 $\hat p=\frac{m_1}{m}$ ，而如果从贝叶斯的观点来看，开始时对硬币的不均匀性一无所知，所以应该假设 $p\sim U[0,1]$ ，于是有了二项分布的计数 $(m_1,m_2)$ 之后，按照贝叶斯公式如下计算 $p$ 的后验分布：

P (p | m 1, m 2) = = = = = P ( p ) P ( m 1 , m 2 | p ) P ( m 1 , m 2 ) P ( p ) P ( m 1 , m 2 | p ) \int 1 0 P ( m 1 , m 2 | t ) P ( t ) d t 1 \cdot P ( m 1 , m 2 | p ) \int 1 0 P ( m 1 , m 2 | t ) \cdot 1 d t ( m m 1 ) p m 1 ( 1 - p ) m 2 \int 1 0 ( m m 1 ) t m 1 ( 1 - t ) m 2 d t p m 1 ( 1 - p ) m 2 \int 1 0 t m 1 ( 1 - t ) m 2 d t

$\begin{split} P(p|m_1,m_2)=&\frac{P(p)P(m_1,m_2|p)}{P(m_1,m_2)}\\ =&\frac{P(p)P(m_1,m_2|p)}{\int_0^1P(m_1,m_2|t)P(t)dt}\\ =&\frac{1\cdot P(m_1,m_2|p)}{\int_0^1P(m_1,m_2|t)\cdot 1dt}\\ =& \frac{\binom{m}{m_1}p^{m_1}(1-p)^{m_2}}{\int_0^1\binom{m}{m_1}t^{m_1}(1-t)^{m_2}dt}\\ =&\frac{p^{m_1}(1-p)^{m_2}}{\int_0^1t^{m_1}(1-t)^{m_2}dt} \end{split}$
计算得到的后验分布正好是

Beta(p|m 1 +1,m 2 +1) $Beta(p|m_1+1,m_2+1)$

文本建模中的频率学派与贝叶斯学派

频率学派：上帝只有一个骰子，这个骰子有 $V$ 个面，每个面对应一个词，各个面的概率不一；每抛一次，抛出的面就对应产生一个词，如果一篇文档有 $N$ 个词（也即词频），上帝就是独立的抛 $n$ 次以产生这 $N$ 个词（可见有重复）；

词频为 $N$ 时，如果我们关注每个词 $v_i$ 的发生次数 $n_i$ ，那么 $\vec n=(n_1,n_2,\ldots,n_V)$ 恰好是一个多项分布：

p (n ⃗) = M u l t i (n ⃗ | N, p ⃗) = (N n ⃗) \prod k = 1 V p n k k

$p(\vec n)=Multi(\vec n|N,\vec p)=\binom N{\vec n}\prod_{k=1}^Vp_k^{n_k}$
其中

∑ V k=1 p k =1,∑ V k=1 n k =N $\sum_{k=1}^Vp_k=1,\; \sum_{k=1}^Vn_k=N$
此时，一个很重要的任务即是估计模型中的参数

p ⃗ =(p 1 ,p 2 ,…,p V ) $\vec p=(p_1,p_2,\ldots,p_V)$ ，也就是问上帝拥有的这个骰子的各个面的概率分别是多大，按照统计学家中频率派的观点，使用最大似然估计最大化

p(W) $p(\mathcal W)$ ，于是参数

p i $p_i$ 的估计值是：

p^i = n i N

$\hat p_i=\frac{n_i}{N}$
对于以上模型，贝叶斯统计学派的统计学家会有不同的意见，他们会很挑剔地批评只假设上帝拥有唯一一个固定的骰子（也即

p ⃗ =(p 1 ,p 2 ,…,p V ) $\vec p = (p_1,p_2,\ldots,p_V)$ ）是不合理的。 在贝叶斯学派看来，一切参数都是随机变量，也即以上模型中的骰子

p ⃗ $\vec p$ 不是唯一固定的，它是一个随机变量。

贝叶斯学派：上帝有一个装有无穷多骰子的坛子，里面有各式各样的骰子（也即 $\vec p$ 各不相同），每个骰子均有 $V$ 个面；上帝先从坛子里面抽了一个骰子出来，然后用这个骰子不断地抛，抛 $N$ 次。

上帝的这个坛子里面，骰子可以是无穷多个，有些类型的骰子数量多，有些类型的骰子少，所以从概率分布的角度看，坛子里边的骰子 $\vec p$ 服从于概率分布 $p(\vec p)$ ，这个分布称为参数 $\vec p$ 的先验分布。

以上是贝叶斯学派的游戏规则，此时预料 $\mathcal W$ 的概率如何计算呢？由于我们并不知道上帝到底使用了哪个骰子（ $\vec p$ ），所以每个骰子都有可能被使用，只是使用的概率由先验分布 $p(\vec p)$ 来决定。对每一个具体的骰子 $\vc p$ ，由该骰子产生的数据的概率是 $p(\mathcal W|\vec p)$ ，所以最终数据产生的概率就是对每一个骰子 $\vec p$ 产生的数据概率进行积分累加求和：

p (W) = \int p (W | p ⃗) p (p ⃗) d p ⃗

$p(\mathcal W)=\int p(\mathcal W|\vec p)p(\vec p)d\vec p$
在贝叶斯分析的框架下， 此处先验分布 $p(\vec p)$ 可以有多种选择，注意到：

p (W | p ⃗) = p (n ⃗ | N, p ⃗) = (N n ⃗) \prod k = 1 V p n k k

$p(\mathcal W|\vec p)=p(\vec n|N,\vec p)=\binom{N}{\vec n}\prod_{k=1}^Vp_k^{n_k}$
实际上在计算一个多项分布的概率，所以对先验分布

p(p ⃗ ) $p(\vec p)$ 的一个比较好的选择即是与多项分布成共轭的共轭分布，也即Dirichlet分布：

D i r (p ⃗ | α ⃗) = 1 Δ ( α ⃗ ) \prod k = 1 V p α k - 1 k Δ (α ⃗) = \int \prod k = 1 V p α k - 1 k d p ⃗

$Dir(\vec p|\vec \alpha)=\frac1{\Delta (\vec \alpha)}\prod_{k=1}^Vp_k^{\alpha_k-1}\quad \Delta (\vec \alpha)=\int \prod_{k=1}^Vp_k^{\alpha_k-1}d\vec p$