机器学习入门：第六章贝叶斯统计贝叶斯公式推导(1)

最新推荐文章于 2024-08-22 01:30:03 发布

go2coding

最新推荐文章于 2024-08-22 01:30:03 发布

阅读量756

点赞数

分类专栏：机器学习入门文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_40425640/article/details/124188027

版权

机器学习入门专栏收录该内容

29 篇文章 18 订阅

订阅专栏

本文回顾了贝叶斯在18世纪的工作，特别是他未发表的论文及其对概率论的重要贡献——贝叶斯公式。文章介绍了贝叶斯研究的背景，他相对低调的研究风格，以及他的理论如何在20世纪中期复兴并形成贝叶斯学派。重点讲解了全概率公式和贝叶斯公式背后的哲学意义，以及其在实际问题中的应用，如条件概率和原因推断。

摘要由CSDN通过智能技术生成

光芒四射的年代

贝叶斯（Thomas Bayes）出生在大数学家费马诞生的100周年（1701年），1761年去世。作为一个数学家，生在这个时代，是幸运的，同时也是不幸的。幸运的是在这个时代里数学高速度的发展，出现非常多的优秀人物，比如牛顿，伯努利，惠更斯等，可以跟这些人科学界的大咖共生一个时代是庆幸的，在数学的海洋里总是能找到那一座指引方向的灯塔；不幸的是，大咖的辉煌太够锋芒，即使在科学界能够发光也容易被这些人所掩盖掉。然而这时代的数学家确实太多了，上帝决定让这段历史好玩点。

在那个时代，贝叶斯也许不是那么有名，起码可以肯定的是，没有他死后有名。虽然在他31岁，就当上了英国皇家学会会员，但他发表的论文并不多见，也很少参加当时的学术讨论会，用今天的说法是此人相当的宅，喜欢自己一个人研究东西，性情孤僻，不喜欢分享和交流。

在这里插入图片描述

一篇没来得及发表的论文

对于贝叶斯来说，最有名的是他死后由他的学生普莱斯整理的《An essay towards solving a problem in the doctrine of chances》(机遇理论中一个问题的解)，为什么贝叶斯会写这篇论文，到底当时他正在研究什么问题，并没有人太清楚，有的人说，是为了解决伯努利和棣莫弗没有解决的关于二项分布概率的“逆概率”问题，有的人说，是为了给当时研究的误差工作提供一种新的思想，但两三百年过去了，这些都无法考证，除非去问贝叶斯本人，但一个点是确信的，贝叶斯研究的动机是为了解决当时非常前沿的数学难题。在贝叶斯去世后，普莱斯整理了他的遗稿，并冠以贝叶斯的名义发表，可惜的是，这篇文章在当时并没有引起太多的讨论，直到20世纪中期，才引起了人们的注意，并被他的支持者们大范围的发展，形成了一个学派：贝叶斯学派。如果贝叶斯在生前知道这个理论对后来的影响，恐怕在他的墓志铭里应该会刻上：

$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
到了20世纪中叶，当同时代其他理论的光芒慢慢退去的时候，贝叶斯公式死灰复燃，像经过了漫长黑夜以后，一道亮光终于划破了黑暗，迎来了黎明。具有标记性意义的是1958年，国际权威性的统计杂志《Biometrika》（生物计量）又全文重载了这篇文章。后来经过贝叶斯支持者的发展，出现了贝叶斯估计，贝叶斯网络等，挑战了统计学传统的观点，并形成了自己的一个派系：贝叶斯学派。从贝叶斯为什么死后才发表了这边论文，可能有两个原因，一个是贝叶斯觉得自己研究这个公式确实太过普通，不值得以一篇论文的方式来发表，另一个原因是贝叶斯在生前还来不及把他的理论发展完成，生前的最后一刻还在推导自己的算法。从后来交代他学生帮他完成这篇文章和贝叶斯的性格来看，我们更有理由相信后者。贝叶斯公式本身就隐藏着深刻的哲理，使得这个公式有强大的力量足以挑战传统统计学这栋高楼大厦（频率学派）。关于贝叶斯学派和频率学派之争，争了好几十年，直到现在。

隐藏在公式里的秘密

有些理论看起来很复杂，但通过推导能够一步一步慢慢明了，有些理论看起来简单，但推导起来却是无比的复杂。显然，大数定理明显是属于后者。

概率统计初始是为了解决一些赌博问题，赌博的问题较为复杂，我们最经常见到的例子是黑白球的问题。还是非常简单的一个古典问题，一个箱子里面有无数（我们数都数不完）黑球和白球，但里面有多少黑球多少白球事先是不知道的，问怎么确定白球和黑球的比率。大家都非常的聪明，起码对这个问题来说，很简单，因为箱子的球是数不完的，到一定的程度，计算一下抽出来黑球和白球的比率就能确定箱子黑白球的比例，而且我们知道球抽的越多，我们算出来的比率就越接近箱子黑白球的比率。但这是直觉，直觉的东西有时候非常可怕，没有理论的推理，总是让人感觉很不踏实，是的，从小到大我们看了很多关于直觉的笑话，最有名的估计两个铁球同时落地，而且估计能排得上头号。当然这个时代是不缺少猛人的，他把这个过程写成数学公式，并证明等式成立，这个猛人的名字叫伯努利，后来把他叫做伯努利大数定理。说起伯努利，不仅仅自己是猛人，他的父亲，他的兄弟，他的后代都非常的猛，到现在他的后代都在科学界都还有很多的贡献，一个人猛概率就很低了，全家都是猛人那就是奇迹了，而且在科学界遍地开花，我们到处都可以听得见这个家族的名字。

伯努利大数定理：
设 $X_1,X_2...X_n...$ 独立同分布的随机变量，记它们的公共均值为a。又设它们的方差存在并记为 $\delta^2$ 。则对任意给定的 $\varepsilon>0$ 有

$limP(|\overline{X}_n-a|\geq\varepsilon)=0$

$\overline{X}_n$ 逼近a，我们有理由相信用 $\overline{X}_n$ 来代替a产生的误差可以控制在一个范围内。这就说明了我们上面关于黑白球的问题了。

仔细的思考，这个简单的公式里面，隐藏着一个很深的哲学意义：如果我们能把一件事情永恒的观察下去，则我们终将发现：世间的一切事物都受到因果规律的支配，而我们也注定在种种及其纷纭杂乱的事象中认识到某种必然。这是伯努利在《推测术》的结束总结。伯努利大数定理也成为了整个数理统计的基础。

伯努利大数定理告诉我们概率是可以某种手段去获得，但关于这个公式，还有很多需要研究的地方，最关键的是那三个参数 $b,a,\varepsilon$ ，这个问题先放着过后在说。

现实中一种情况很常见，要计算事件A概率，通常是在另外一个事件B已经发生条件下来计算的，举个打牌的例子，我们要估计牌梅花老K是否在对家的手里，一开始所有的玩家都没有出牌的时候，对手拿到梅花老K的概率是多少呢（假设自己没有），三分之一吧，这里我们有一个条件，就是假设自己没有拿，这叫做条件概率，表示为 $P (A ∣ B)$ ，读作“B条件下A的概率”。

在推广一下，假如把B分成n份即 ${B_n:n=1,2,3...}$ ，且 $B_1+B_2...+B_n=\Omega$ ，假设每份 $B_i$ 的概率为 $P(B_i)$ ,现在 $P (A)$ 的概率如何计算，

$P(A)=\sum_nP(A\bigcap B_n)$

为了方便在假设事件A和事件B是独立的：

$P(A\bigcap B_n)=P(A|B_n)P(B_n)$

则
$P(A)=\sum_n P(A|B_n)P(B_n)$
用一个图来表示就更清楚了，事件A发生的概率是局部的概率之和，这个就很容易让人理解，他有一个名字就叫做全概率公式。
如果换个角度来看全概率公式，把事件A看成“结果”，把各个事件 $B_1,B_2,...$ 看成导致这个结果的可能的“原因”，那么全概率公式就可以形象的看做成一系列的原因导致的结果，这些原因出现的可能性决定了结果发生的概率。在反过来思考，假设事件A已经发生了，让我们来推理是哪个原因导致的，或者说哪个原因起来主要的作用。这个就是著名的贝叶斯公式：