光芒四射的年代
贝叶斯(Thomas Bayes)出生在大数学家费马诞生的100周年(1701年),1761年去世。作为一个数学家,生在这个时代,是幸运的,同时也是不幸的。幸运的是在这个时代里数学高速度的发展,出现非常多的优秀人物,比如牛顿,伯努利,惠更斯等,可以跟这些人科学界的大咖共生一个时代是庆幸的,在数学的海洋里总是能找到那一座指引方向的灯塔;不幸的是,大咖的辉煌太够锋芒,即使在科学界能够发光也容易被这些人所掩盖掉。然而这时代的数学家确实太多了,上帝决定让这段历史好玩点。
在那个时代,贝叶斯也许不是那么有名,起码可以肯定的是,没有他死后有名。虽然在他31岁,就当上了英国皇家学会会员,但他发表的论文并不多见,也很少参加当时的学术讨论会,用今天的说法是此人相当的宅,喜欢自己一个人研究东西,性情孤僻,不喜欢分享和交流。
一篇没来得及发表的论文
对于贝叶斯来说,最有名的是他死后由他的学生普莱斯整理的《An essay towards solving a problem in the doctrine of chances》(机遇理论中一个问题的解),为什么贝叶斯会写这篇论文,到底当时他正在研究什么问题,并没有人太清楚,有的人说,是为了解决伯努利和棣莫弗没有解决的关于二项分布概率的“逆概率”问题,有的人说,是为了给当时研究的误差工作提供一种新的思想,但两三百年过去了,这些都无法考证,除非去问贝叶斯本人,但一个点是确信的,贝叶斯研究的动机是为了解决当时非常前沿的数学难题。在贝叶斯去世后,普莱斯整理了他的遗稿,并冠以贝叶斯的名义发表,可惜的是,这篇文章在当时并没有引起太多的讨论,直到20世纪中期,才引起了人们的注意,并被他的支持者们大范围的发展,形成了一个学派:贝叶斯学派。如果贝叶斯在生前知道这个理论对后来的影响,恐怕在他的墓志铭里应该会刻上:
P
(
A
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
)
P(A|B)=\frac{P(B|A)P(A)}{P(B)}
P(A∣B)=P(B)P(B∣A)P(A)
到了20世纪中叶,当同时代其他理论的光芒慢慢退去的时候,贝叶斯公式死灰复燃,像经过了漫长黑夜以后,一道亮光终于划破了黑暗,迎来了黎明。具有标记性意义的是1958年,国际权威性的统计杂志《Biometrika》(生物计量)又全文重载了这篇文章。后来经过贝叶斯支持者的发展,出现了贝叶斯估计,贝叶斯网络等,挑战了统计学传统的观点,并形成了自己的一个派系:贝叶斯学派。从贝叶斯为什么死后才发表了这边论文,可能有两个原因,一个是贝叶斯觉得自己研究这个公式确实太过普通,不值得以一篇论文的方式来发表,另一个原因是贝叶斯在生前还来不及把他的理论发展完成,生前的最后一刻还在推导自己的算法。从后来交代他学生帮他完成这篇文章和贝叶斯的性格来看,我们更有理由相信后者。贝叶斯公式本身就隐藏着深刻的哲理,使得这个公式有强大的力量足以挑战传统统计学这栋高楼大厦(频率学派)。关于贝叶斯学派和频率学派之争,争了好几十年,直到现在。
隐藏在公式里的秘密
有些理论看起来很复杂,但通过推导能够一步一步慢慢明了,有些理论看起来简单,但推导起来却是无比的复杂。显然,大数定理明显是属于后者。
概率统计初始是为了解决一些赌博问题,赌博的问题较为复杂,我们最经常见到的例子是黑白球的问题。还是非常简单的一个古典问题,一个箱子里面有无数(我们数都数不完)黑球和白球,但里面有多少黑球多少白球事先是不知道的,问怎么确定白球和黑球的比率。大家都非常的聪明,起码对这个问题来说,很简单,因为箱子的球是数不完的,到一定的程度,计算一下抽出来黑球和白球的比率就能确定箱子黑白球的比例,而且我们知道球抽的越多,我们算出来的比率就越接近箱子黑白球的比率。但这是直觉,直觉的东西有时候非常可怕,没有理论的推理,总是让人感觉很不踏实,是的,从小到大我们看了很多关于直觉的笑话,最有名的估计两个铁球同时落地,而且估计能排得上头号。当然这个时代是不缺少猛人的,他把这个过程写成数学公式,并证明等式成立,这个猛人的名字叫伯努利,后来把他叫做伯努利大数定理。说起伯努利,不仅仅自己是猛人,他的父亲,他的兄弟,他的后代都非常的猛,到现在他的后代都在科学界都还有很多的贡献,一个人猛概率就很低了,全家都是猛人那就是奇迹了,而且在科学界遍地开花,我们到处都可以听得见这个家族的名字。
伯努利大数定理:
设
X
1
,
X
2
.
.
.
X
n
.
.
.
X_1,X_2...X_n...
X1,X2...Xn...独立同分布的随机变量,记它们的公共均值为a。又设它们的方差存在并记为
δ
2
\delta^2
δ2。则对任意给定的
ε
>
0
\varepsilon>0
ε>0有
l i m P ( ∣ X ‾ n − a ∣ ≥ ε ) = 0 limP(|\overline{X}_n-a|\geq\varepsilon)=0 limP(∣Xn−a∣≥ε)=0
X ‾ n \overline{X}_n Xn逼近a,我们有理由相信用 X ‾ n \overline{X}_n Xn来代替a产生的误差可以控制在一个范围内。这就说明了我们上面关于黑白球的问题了。
仔细的思考,这个简单的公式里面,隐藏着一个很深的哲学意义:如果我们能把一件事情永恒的观察下去,则我们终将发现:世间的一切事物都受到因果规律的支配,而我们也注定在种种及其纷纭杂乱的事象中认识到某种必然。这是伯努利在《推测术》的结束总结。伯努利大数定理也成为了整个数理统计的基础。
伯努利大数定理告诉我们概率是可以某种手段去获得,但关于这个公式,还有很多需要研究的地方,最关键的是那三个参数 b , a , ε b,a,\varepsilon b,a,ε,这个问题先放着过后在说。
现实中一种情况很常见,要计算事件A概率,通常是在另外一个事件B已经发生条件下来计算的,举个打牌的例子,我们要估计牌梅花老K是否在对家的手里,一开始所有的玩家都没有出牌的时候,对手拿到梅花老K的概率是多少呢(假设自己没有),三分之一吧,这里我们有一个条件,就是假设自己没有拿,这叫做条件概率,表示为 P ( A ∣ B ) P(A|B) P(A∣B),读作“B条件下A的概率”。
在推广一下,假如把B分成n份即 B n : n = 1 , 2 , 3... {B_n:n=1,2,3...} Bn:n=1,2,3...,且 B 1 + B 2 . . . + B n = Ω B_1+B_2...+B_n=\Omega B1+B2...+Bn=Ω,假设每份 B i B_i Bi的概率为 P ( B i ) P(B_i) P(Bi),现在 P ( A ) P(A) P(A)的概率如何计算,
P ( A ) = ∑ n P ( A ⋂ B n ) P(A)=\sum_nP(A\bigcap B_n) P(A)=n∑P(A⋂Bn)
为了方便在假设事件A和事件B是独立的:
P ( A ⋂ B n ) = P ( A ∣ B n ) P ( B n ) P(A\bigcap B_n)=P(A|B_n)P(B_n) P(A⋂Bn)=P(A∣Bn)P(Bn)
则
P
(
A
)
=
∑
n
P
(
A
∣
B
n
)
P
(
B
n
)
P(A)=\sum_n P(A|B_n)P(B_n)
P(A)=n∑P(A∣Bn)P(Bn)
用一个图来表示就更清楚了,事件A发生的概率是局部的概率之和,这个就很容易让人理解,他有一个名字就叫做全概率公式。
如果换个角度来看全概率公式,把事件A看成“结果”,把各个事件
B
1
,
B
2
,
.
.
.
B_1,B_2,...
B1,B2,...看成导致这个结果的可能的“原因”,那么全概率公式就可以形象的看做成一系列的原因导致的结果,这些原因出现的可能性决定了结果发生的概率。在反过来思考,假设事件A已经发生了,让我们来推理是哪个原因导致的,或者说哪个原因起来主要的作用。这个就是著名的贝叶斯公式:
P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) ∑ n P ( A ∣ B i ) P ( B i ) P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_n P(A|B_i)P(B_i)} P(Bi∣A)=∑nP(A∣Bi)P(Bi)P(A∣Bi)P(Bi)
哪个原因起到最主要的作用呢?当然是概率最大的,
m
a
x
P
(
B
i
∣
A
)
maxP(B_i|A)
maxP(Bi∣A)。其实贝叶斯公式,不仅仅是需要计算一次,而是需要计算N次,因为有N次的原因,需要从这些原因中选择最有可能出现的一种。
为了方便记忆,简单的可以写成:
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A)=\frac{P(A|B)P(B)}{P(A)} P(B∣A)=P(A)P(A∣B)P(B)
关于贝叶斯的推导非常的简单,只要应用前面的全概率公式就能推导出来。它刚好是全概率相反,可以看做是全概率的“逆概率”过程,其作用在于“由结果推原因”:现在有一个“结果”A已经发生了,在众多的“原因”中,到底是哪个原因导致了这个结果?这种是日常生活和科学技术常要问到的问题。