前言
写作参考概率论书籍、西瓜书、李航《统计学习方法》及其他资料,若有不足请大家不吝赐教!
一、文章重点及流程梳理
本文目的在于:
1、阐述MLE参数估计的思想,并计算参数在正态分布下的估计量
2、阐述贝叶斯估计的思想,并介绍贝叶斯估计与MAP的不同点
流程梳理:
1、介绍这部分所涉及的概率论知识,包括条件概率、全概率、事件独立性、贝叶斯公式。
2、介绍MLE并求解参数在正态分布下的估计量,并进行比较。
3、介绍贝叶斯估计及MAP的思想。
二、概率论基础知识
1.条件概率
P ( B ∣ A ) = P ( A B ) P ( A ) ( 1 ) P\left( B|A \right) \,\,=\,\,\frac{P\left( AB \right)}{P\left( A \right)}\,\, \left( 1 \right) P(B∣A)=P(A)P(AB)(1)
通过下图对上式进行描述:
图中有两集合A、B,黄色部分为A、B的交集部分。则P(B|A)表示在A发生的情况下,B发生的概率,可以通过交集部分发生概率占A所发生概率的比值表示。同理,若要求P(A|B)只需要换成交集部分发生概率占B所发生概率的比值。
2.事件独立性
定义:在一次试验中,一事件发生与否与另一事件是否发生无关。满足下式:
P ( A B ) = P ( A ) P ( B ) ( 2 ) P\left( AB \right) \,\,=\,\,P\left( A \right) P\left( B \right) \,\, \left( 2 \right) P(AB)=P(A)P(B)(2)
则称A、B相互独立。
PS:独立同分布指的是随机变量服从同一分布且相互独立。
3.全概率公式
P ( A ) = ∑ i = 1 n P ( B i ) P ( A ∣ B i ) ( 3 ) P\left( A \right) \,\,=\,\,\sum_{i\,\,=\,\,1}^n{P\left( B_i \right)}P\left( A|B_i \right) \,\, \left( 3 \right) P(A)=i=1∑nP(Bi)P(A∣Bi)(3)
公式解读:若A事件的发生可由多项B事件引起,那么这时候A发生的概率等于B事件发生的概率乘以B事件发生条件下A发生概率之和。
举个栗子:假设A是今天感到快乐的概率,可以通过吃东西B1,或者是买了新衣服B2,或者是出了考试成绩B3,或者是有人和自己告白B4。那么,所有的B事件发生,需要一定的概率;在B事件发生得概率下,开心和不开心都存在可能,而我们只取B事件下开心的概率,这时候A要发生的概率,就是所有B事件发生概率*B事件下A发生得概率的和。
4.贝叶斯公式(逆概公式)
贝叶斯公式的初始形式:
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P\left( B|A \right) \,\,=\,\,\frac{P\left( A|B \right) P\left( B \right)}{P\left( A \right)} P(B∣A)=P(A)P(A∣B)P(B)
其中,P(A|B)称为似然(likelihood),P(B)称为先验(prior),P(A)称为事实,P(B|A)称为后验(posterior)。
后验P(B|A)求的是在A发生条件下,B发生得概率;似然P(A|B)求的是,若A发生则B作为影响因子出现的概率。
通过式(1)和式(2),可得到如下贝叶斯公式的变形:
P ( B j ∣ A ) = P ( B j ) ⋅ P ( A ∣ B j ) ∑ i = 1 n P ( B i ) P ( A ∣ B i ) ( 4 ) P\left( B_j|A \right) \,\,=\,\,P\left( B_j \right) \,\, ·\,\, \frac{P\left( A|B_j \right)}{\sum_{i\,\,=\,\,1}^n{P\left( B_i \right)}\,\,P\left( A|B_i \right)}\,\, \left( 4 \right) P(Bj∣A)=P(Bj)⋅∑i=1nP(Bi)P(A∣Bi)P(A∣Bj)(4)
通过下图对上式进行理解:
整个圆划分为三个部分A、B、C,黄色部分为M集合,若此时求M发生A中的概率,则
P ( A ∣ M ) = P ( A ∩ M ) P ( M ) P\left( A|M \right) \,\,=\,\,\frac{P\left( A\cap M \right)}{P\left( M \right)}\,\, P(A∣M)=P(M)P(A∩M)
= P ( M ∣ A ) P ( A ) P ( M ∣ A ) P A + P ( M ∣ B ) P ( B ) + P ( M ∣ C ) P ( C ) =\,\,\frac{P\left( M|A \right) P\left( A \right)}{P\left( M|A \right) PA+P\left( M|B \right) P\left( B \right) +P\left( M|C \right) P\left( C \right)} =P(M∣A)PA+P(M∣B)P(B)+P(M∣C)P(C)P(M∣A)P(A)
通过例子可知,后验概率目的在于,已知M发生后,想知道由A引发M事件的概率,即为:知道结果后反推原因。
三、参数估计
1.极大似然估计(Maximum Likelihood Estimation)
1、MLE思想
频率派角度:认为参数是固有的,但是可能由于一些外界的噪声干扰,使数据看起来不是完全由参数决定。但只要在这个数据给定的情况下,找到一个概率最大的参数就可以了。即,模型已定,参数未定。
P ( x ∣ θ ) P\left( x|\theta \right) P(x∣θ)
2、MLE表示形式
当存在多个样本时,需要多个似然相乘,此时样本间独立同分布,即:
P ( D c ∣ θ c ) = ∏ x ∈ D c P ( x ∣ θ c ) P\left( D_c|\theta _c \right) \,\,=\,\,\prod_{x\in D_c}{P\left( x|\theta _c \right)} P(Dc∣θ