概率论与数理统计学习笔记(4)——贝叶斯公式

本文是我看3B1B的视频后的学习笔记,主要用于遗忘后可以翻看。相关的链接放在了最后。

对了宝贝儿们,卑微小李的公众号【野指针小李】已开通,期待与你一起探讨学术哟~摸摸大!

1 数学上证明贝叶斯公式

1.1 预备知识

设事件A与事件B发生的概率为 P ( A ) P(A) P(A) P ( B ) P(B) P(B)。事件A与事件B共同发生的概率为 P ( A , B ) P(A, B) P(A,B)(i.e. 联合概率)。在事件B发生的情况下事件A发生的概率为 P ( A ∣ B ) P(A|B) P(AB),反之为 P ( B ∣ A ) P(B|A) P(BA)(i.e. 条件概率)。

用一个直观的图来表达联合概率如下:

联合概率
而概率我们可以转换为面积来表示,如下图所示:

联合概率面积表示

1.2 数学证明

从上面的图,我们就可以看出 P ( A , B ) P(A, B) P(A,B)能够表达为 P ( A ) P(A) P(A) P ( B ) P(B) P(B)的占比,或者说是 P ( B ) P(B) P(B) P ( A ) P(A) P(A)的占比(这里用面积去想象可以很好的想通)。于是我们可以把联合概率表达为如下公式:

P ( A , B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(A, B)=P(A)P(B|A)=P(B)P(A|B) P(A,B)=P(A)P(BA)=P(B)P(AB)

就比如下图:
联合概率计算
那么根据上面的等式,我们就可以很容易的得出以下公式:

P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) P(A|B)=\frac{P(A)P(B|A)}{P(B)} P(AB)=P(B)P(A)P(BA)

P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P ( A ) P(B|A)=\frac{P(B)P(A|B)}{P(A)} P(BA)=P(A)P(B)P(AB)

2 贝叶斯公式直观理解

2.1 问题提出

我们先列出3B1B给的贝叶斯公式(主要是他给的公式的参数定义我觉得很容易理解):

P ( H ∣ E ) = P ( H ) P ( E ∣ H ) P ( E ) P(H|E)=\frac{P(H)P(E|H)}{P(E)} P(HE)=P(E)P(H)P(EH)

其中 E E E指的是evidence (证据) H H H指的是hypothesis (假设)

接着给定一个背景知识:

背景知识
再给出相应的问题:Steve是农民还是图书馆管理员?

虽然我觉得这样的题目有点犯规,就好比给你个题目小明今年五岁,问你小明的妈妈今年发量如何,但是我们依旧要用数学的方法来解决这个问题。我们不能凭借直觉来简单的回答这个问题,而是要用严谨的逻辑来解决这个题目。

那么以上的内容显然不足以解决我们的问题,所以我们需要调查,得出图书馆管理员与农民的比例是1:20。有了这个背景知识后,我们可以绘制出以下的比例图(假定图书馆管理员的样本数为10):

人口比例
下一步,我们通过观察题目,发现有个关键话语"meek and tidy soul",于是我们假设有 40 % 40\% 40%的图书馆管理员符合该描述, 10 % 10\% 10%的农民符合该描述。那么我们就可以根据该描述,在上面的样本中计算得到图书馆管理员的比例:

P ( L i b r a r i a n   g i v e n   d e s c r i p t i o n ) = 4 4 + 20 ≈ 16.7 % P(Librarian \ given \ description)=\frac{4}{4+20} \approx 16.7\% P(Librarian given description)=4+20416.7%

那么我们发现在这种情况下Steve是图书馆管理员的概率居然不足 20 % 20\% 20%,也就是说虽然图书馆管理员满足描述的占比高,但是奈何不了农民的人多,那么就是说明我们不能靠着直觉来分析这类问题。

2.2 贝叶斯公式的核心

有了以上的内容后,我们来看看贝叶斯公式的核心,如下图所示:

贝叶斯公式核心
就是说求解这类问题分为三步:

  1. 找到样本集合;
  2. 找到满足证据的集合;
  3. 根据满足证据的不同集合之间的占比来求解概率。

在上个问题中的证据指的就是对Steve的描述。

2.3 贝叶斯公式使用情况及计算方式

2.3.1 使用情况

贝叶斯公式的使用条件有以下两点:

  1. 有一个假设(比如上面例子中的Steve is a librarian);
  2. 有一些证据(There are 40 % 40\% 40% of librarians fit the description, and 10 % 10\% 10% of farmers fit the description

而想要基于这些证据求得假设的概率。如下图所示:

使用情况

2.3.2 计算方式

我们将以上的内容形式化表达。

  1. 我们根据人口比例的背景知识,可以设定假设成立的概率为 P ( H ) P(H) P(H)。这个 P ( H ) P(H) P(H)又称为先验(Prior),指的是考虑新证据前,假设成立的可能性。
  2. 接着我们引入对Steve的描述,来计算Steve如果是图书馆管理员,那么满足这个描述的概率,记做 P ( E ∣ H ) P(E|H) P(EH) P ( E ∣ H ) P(E|H) P(EH)称作似然(Likelihood),指的是在假设的情况下满足证据的可能性。
  3. 同样,我们需要计算假设不成立的情况下满足证据的可能性,这是另一个似然,记做 P ( E ∣ ¬ H ) P(E|\neg H) P(E¬H)。这个代表的就是假设Steve不是librarian(是farmer),满足描述的概率。
  4. 通过上面的三个内容,我们可以得到贝叶斯公式,表达如下:
    P ( H ∣ E ) = 满 足 证 据 与 假 设 的 人 数 / 满 足 证 据 的 人 数 = N P ( H ) P ( E ∣ H ) N P ( H ) P ( E ∣ H ) + N P ( ¬ H ) P ( E ∣ ¬ H ) = P ( H ) P ( E ∣ H ) P ( H ) P ( E ∣ H ) + P ( ¬ H ) P ( E ∣ ¬ H ) = P ( H ) P ( E ∣ H ) P ( E ) \begin{aligned} P(H|E)=& 满足证据与假设的人数 / 满足证据的人数 \\ =& \frac{NP(H)P(E|H)}{NP(H)P(E|H)+NP(\neg H)P(E| \neg H)}\\ =& \frac{P(H)P(E|H)}{P(H)P(E|H)+P(\neg H)P(E| \neg H)} \\ =& \frac{P(H)P(E|H)}{P(E)} \end{aligned} P(HE)====/NP(H)P(EH)+NP(¬H)P(E¬H)NP(H)P(EH)P(H)P(EH)+P(¬H)P(E¬H)P(H)P(EH)P(E)P(H)P(EH)
    其中 N N N代表的是总样本数, P ( E ) = P ( H ) P ( E ∣ H ) + P ( ¬ H ) P ( E ∣ ¬ H ) P(E)=P(H)P(E|H)+P(\neg H)P(E| \neg H) P(E)=P(H)P(EH)+P(¬H)P(E¬H) P ( H ∣ E ) P(H|E) P(HE)称作后验(Posterior),指的是看到证据后,假设成立的可能性。在题目中指的就是满足描述,Steve是图书馆管理员的概率。

将上面的文字描述转换为图片表达如下:

贝叶斯公式计算

我们将上面的数据代入进行计算。一共有 10 10 10个图书馆管理员, 200 200 200个农民,满足描述的图书馆管理员占比 40 % 40\% 40%,农民占比 10 % 10\% 10%。于是满足证据与假设的人数为 210 ∗ 1 21 ∗ 4 10 = 4 210 * \frac{1}{21} * \frac{4}{10}=4 210211104=4。满足证据的人数为 210 ∗ 1 21 ∗ 4 10 + 210 ∗ 20 21 ∗ 1 10 = 24 210 * \frac{1}{21} * \frac{4}{10} + 210 * \frac{20}{21} * \frac{1}{10}=24 210211104+2102120101=24,结果为 4 24 ≈ 16.7 % \frac{4}{24} \approx 16.7\% 24416.7%。在这里, 210 ∗ 1 21 210 * \frac{1}{21} 210211指的是满足新证据前,假设成立的人数, 210 ∗ 1 21 ∗ 4 10 210 * \frac{1}{21} * \frac{4}{10} 210211104也指的是满足新证据后,假设成立的人数。分母后的内容亦然。

3 贝叶斯公式启发

贝叶斯公式我个人认为最强的一点就在于,当我们面对某个问题的时候,我们对其有背景知识的了解,随着这些了解的深入,我们会慢慢更新我们的看法。也就是说新证据不能凭空决定你的看法,而是应该更新你的先验看法

4 参考

[1]皮果提.word2vec 中的数学原理详解(二)预备知识[EB/OL].https://blog.csdn.net/itplus/article/details/37969635,2014.
[2]3Blue1Brown.【官方双语】贝叶斯定理,使概率论直觉化[EB/OL].https://www.bilibili.com/video/BV1R7411a76r,2020.
[3]3Blue1Brown.【官方双语】贝叶斯定理的简洁证明[EB/OL].https://www.bilibili.com/video/BV1o7411a76m,2020.
[4]3Blue1Brown.【官方双语】医检阳性≠得了病?重新理解贝叶斯定理[EB/OL].https://www.bilibili.com/video/BV1Ei4y1F72M,2020.

  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
概率论与数理统计是一门研究随机现象的规律性和统计推断的学科。它的基础是概率论,该理论研究的是随机事件发生的可能性。数理统计则是根据观察到的样本,通过对未知参数的估计和对假设的检验来对总体进行推断。 概率论与数理统计应用非常广泛,涉及到许多不同的领域。在自然科学中,概率论与数理统计被用来建立和分析模型,解释实验结果,以及进行科学研究。在社会科学和人文科学中,它帮助研究人员通过统计分析来得出结论,并提供可靠的推断和决策依据。在工程领域,概率论与数理统计被用来分析和优化系统的可靠性和性能。 《概率论与数理统计笔记PDF》是一种学习资料,它提供了该学科的基本概念、定理和方法。这份笔记可以帮助读者理解概率论与数理统计的基本原理和应用,并提供实际案例和习题来加深对这些概念的掌握。通过阅读这份笔记,读者可以了解概率、随机变量、概率分布、统计推断等重要概念,以及它们在实际问题中的应用。 这份笔记的PDF格式使得它可以方便地在电子设备上阅读和存储。读者可以自由地选择在自己的电脑、平板电脑或手机上学习,随时随地进行学习。此外,PDF格式还允许读者进行注释和书签,方便他们标记和回顾重要内容。 总之,《概率论与数理统计笔记PDF》是一份有助于理解和掌握概率论与数理统计学习资料。它提供了基本的概念和方法,并通过实例和习题帮助读者巩固所学知识。同时,它的PDF格式也方便读者在电子设备上学习和存储。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值