【学习笔记】贝叶斯估计
计量学习中充斥了各种参数估计方法,假设参数存在的情况下,回想一下我们经常见到的估计方法。脑子里几乎能立刻想到OLS(最小二乘估计)和MLE(最大似然估计),那么贝叶斯估计是什么样的估计方法呢?
翻一翻计量课本,我们隐约觉得OLS、MLE和贝叶斯估计之间不太一样。深入去看,我们发现OLS和MLE在计算参数的时候总是把待求的参数当作一个固定的未知数,然后通过最小均方误差或最大化样本概率来求出这个未知的参数。但当我们看贝叶斯估计的时候,我们发现贝叶斯估计似乎并不直接估计参数的值,而是允许参数服从一定的概率分布,也就是说贝叶斯估计的参数是一个用概率分布表示的随机变量。
更深入一些,我们发现上面我们所讨论的两大类不同的估计方法其实属于不同的学派。
参数估计(Parameter Estimation)在统计学领域有两个学派:频率学派也叫古典学派(最大似然估计MLE、最大后验估计MAP,最小二乘估计OLS等)与贝叶斯学派(贝叶斯估计BPE) 。频率派在进行统计推断时使用的是总体信息和样本信息,但贝叶斯估计认为还应使用先验信息。是否使用先验信息也是贝叶斯估计区别于频率派的主要特点。
另外,频率派认为未知参数 θ \theta θ是客观存在的,不会改变,是固定值;贝叶斯派则认为未知参数 θ \theta θ是随机值,可以用一个概率分布去描述。 贝叶斯估计要求在得到样本之后,总体分布、样本与先验分布通过贝叶斯公式结合起来得到一个关于未知量 θ \theta θ的新分布——后验分布,此后任何关于 θ \theta θ的统计推断都应基于 θ \theta θ的后验分布进行。
一般而言,频率派最常关心的是似然函数,而贝叶斯派最常关心的是后验分布。贝叶斯派因为所有的参数都是随机变量,都有分布,因此可以使用一些基于采样的方法(如MCMC)使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布,因此更加客观,也更加无偏,在一些保守的领域(比如制药业、法律)比贝叶斯方法更受到信任。
上面是一个对贝叶斯估计的整体概述,但想要真正了解贝叶斯估计就要从基本概念开始。
1.基本概念
🔸 后验分布(posterior distribution):由果推因。也就是已知结果,然后根据结果估计原因的概率分布即为后验分布。
举个例子,新学期开始的时候你的博士同学小拉告诉你他花了三个小时才到了学校,那么花了三个小时到学校就是结果,你想根据这个结果猜测(估计)他来学校的交通方式即猜测原因,用公式表达就是:
P [ ( 原 因 ) 交 通 方 式 ∣ ( 结 果 ) 花 费 的 时 间 ] P[(原因)交通方式|(结果)花费的时间] P[(原因)交通方式∣(结果)花费的时间]
用 θ \theta θ表示事件原因, x x x表示事件结果,那么正规的公式可以表达成:
P ( θ ∣ x ) P(\theta | x) P(θ∣x)
🔸 先验分布(prior distribution):在结果发生前根据历史规律确定原因的概率分布即为后验分布,也就是不知道结果的前提下的一种主观判断。
举个例子,我们不用知道你的博士同学小拉花了多长时间来的学校,但是你和小拉很熟悉,你知道他在当地居住,但他是个健身爱好者,更倾向于跑步过来。所以这个时候博士同学小拉的交通工具选择与花费时间不再相关,我们在结果发生之前就开始进行主观猜测,用公式表示就是:
P [ 交 通 方 式 ( 原 因 ) ] P[交通方式(原因)] P[交通方式(原因)]
借由上面的表达式,将其正规化得到:
P ( θ ) P(\theta) P(θ)
🔸 似然估计:如果从因果的角度去看,似然估计是由果推因,它表示的含义和概率刚好是相反的。但在形式上似然函数 L ( θ ∣ x ) = P ( x ∣ θ ) L(\theta|x)=P(x|\theta) L(θ∣x)=P(x∣θ),这里具体的区别请参考知乎文章似然与似然函数详解,里面非常详细地对似然函数与概率进行了区分。
🔸 样本发生的概率分布:如果忽略原因,只看结果,我们可以得到结果的概率分布。用上面的例子来看,如果我们忽略博士小拉可能选择的交通方式,只统计他每天到达学校的使劲,那么我们可以得到一组时间的概率分布。用公式表达就是:
P [ 时 间 ( 结 果 ) ] P[时间(结果)] P[时间(结果)]
也就是:
P ( x ) P(x) P(x)
2.贝叶斯定理(Bayes’ Theorem)
🔸在知道后验分布、先验分布和似然估计的概念之后,我们开始引入贝叶斯定理。
如果 P ( A ) P(A) P(A) 表示先验概率, B B B表示样本数据,那么贝叶斯定理可以用以下公式来表示:
P ( A ∣ B ) = P ( B ∣ A ) ∗ P ( A ) P ( B ) P(A|B)=\frac{P(B|A)*P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)∗P(A)
如果借用上面的例子,我们还可以采取下面这种表达形式:
P ( θ ∣ x ) = P ( x ∣ θ ) ∗ P ( θ ) P ( x ) P(\theta|x)=\frac{P(x|\theta)*P(\theta)}{P(x)} P(θ∣x)=P(x)P(x∣θ)∗P(θ)
这里可以看到贝叶斯公式中常用 P ( x ∣ θ ) P(x|\theta) P(x∣θ)来代表
后 验 概 率 = 似 然 估 计 ∗ 先 验 概 率 样 本 发 生 的 概 率 分 布 后验概率=\frac{似然估计*先验概率}{样本发生的概率分布} 后验概率=样本发生的概率分布似然估计∗先验概率
上面的公式其实也可以这样理:解在我们不知道博士同学小拉到学校多长时间 x x x 的前提下,我们根据对小拉的了解推测其可能采用的交通方式 P ( θ ) P(\theta) P(θ) ,这是先验概率,这里我们假设我们根据对小拉是个跑步爱好者的了解推断其可能会跑步来学校。
P ( x ∣ θ ) P ( x ) \frac{P(x|\theta)}{P(x)} P(x)P(x∣θ) 是可能性函数,表示当我们了解了一些新信息(比如现在你知道了小拉到学校需要花3个小时),比如你知道了今天早上下雨了,那么小拉很有可能不再跑步来学校,这里的可能性函数很有可能小于1,也就是削弱了你之前的先验判断 P ( θ ) P(\theta) P(θ) 。可能性函数起到对你先验信息进行调节的作用,最后让你根据你拥有的先验信息(对博士同学小拉可能采取的交通方式的了解)推测出后验信息(小拉花了3个小时到学校可能采用什么交通方式)。
所以,贝叶斯估计的实质就在于:
反复使用贝叶斯定理,将先验分布与样本数据综合为后验分布。
🔸下面我们用随机变量的概率密度再一次描述贝叶斯公式
p ( x ∣ θ ) p(x|\theta) p(x∣θ)是总体的概率函数,表示在随机变量 θ \theta θ取某个给定值时总体的条件概率密度; π ( θ ) \pi(\theta) π(θ)是根据参数 θ \theta θ确定的先验分布。从贝叶斯的观点来看,样本 X = ( x 1 , … , x n ) X=(x_1,…,x_n) X=(x1,