数学-先验概率和后验概率和一系列概率公式理解

@Moota

已于 2022-05-24 11:26:50 修改

阅读量1.2k

点赞数

分类专栏：数学文章标签：数学

于 2022-05-23 23:00:28 首次发布

本文链接：https://blog.csdn.net/m0_51819222/article/details/124913432

版权

数学专栏收录该内容

3 篇文章 0 订阅

订阅专栏

自用。

一. 先验概率和后验概率理解

这两个都是描述某个结论H发生的概率。

假如我当前什么证据都没有，就根据之前的人生经历，思索下说P(H)=0.99，认为结论H发生的可能高达99%，那这时的P(H)就是先验概率。
为什么呢？先验嘛，事先验证过，我虽然不知道当前发生了什么，但我可以用之前的事实来推测结论H发生的概率，也别管对不对。
然后我通过试验有证据了，用这个证据E证明，结论H发生的概率为1%，即P(H|E)=0.01。那么这时的P(H|E)就是后验概率。
为什么呢？后验，后来验证过，我拿着最新的证据E，实实在在的证明了结论H发生的概率。

然后我们带着这个理解去看看公式。

二. 概率公式

提示：证据可以作为结论，结论可以作为证据。它们都是事件，看你怎么用，就怎么称呼。变量名也是，叫A叫H都可以，实质作用没变。

1. 条件概率公式

1.1 公式 $P(A|B)=\frac{P(A∩B)}{P(B)}$

P(A|B)：在B发生的情况下A发生的概率。
P(A∩B)：A，B都发生的概率。
P(B)：B发生的概率。

先摆…图，~~讲究的话将就一下~~ 。

在这里插入图片描述

1.2 理解

简单理解一下：众所周知，上面A是A发生的区域，B是B发生的区域，A∩B是A和B的交集，是A发生，B也发生的区域。那么求A区域落在B区域的比例是在求什么，其实就是在求B发生的情况下A发生的概率啦，即条件概率P(A|B)。

然后看条件概率公式，P(A|B)在之前理解时不是后验概率，怎么到这个是条件概率了？
错误理解：那这得根据当前的语境(不是H,E换成A,B啊)，确定它叫什么。两者从不同角度描述了概率的类型。
正确理解：后验概率是一种被赋予了现实意义的条件概率。把A,B换成H,E。
$P(H|E)=\frac {P(H∩E)}{P(E)}$
之前说到，我拿着最新的证据E，实实在在的证明了结论H发生的概率。

这个过程说明了什么呢？我拿的是E，不是其他的证据，去确定结论H的概率，也就是说概率的确定是有条件的，这个条件就是我拿的E、、、所以后验概率是一种被赋予了现实意义的条件概率。自然，后验概率可以表示成P(H|E)。

这个过程发生了什么呢，摆…图

在这里插入图片描述

左图，试验中，我们可以记录钦定的证据E的概率，即P(E)，毕竟证据不止证据E呢（统称~E）
右图，我们可以记录钦定的结论H和证据E都发生的概率，即P(H∩E)，毕竟还有三种情况呢( ~H∩E， H∩~E， ~ H∩~E)。

可以看见，P(E)和P(H∩E)不在一个样本空间，那么求其比例就可以重新组织基本事件为：E发生H发生，E发生H不发生。把P(E)当作总体，然后求得P(H∩E)占总体的比重。这个比重就是在证据E的基础上有多大可能推出结论H的概率，即P(H|E)。(用前面的话说，我拿着证据E，来确定结论H发生的概率，所以∩E)。

然后我们可以知道P(H|E)=P(H∩E)/P(E)是合理的。
然后可以通过这个公式知二求一。

1.2.1 $：P(H|E)=\frac{P(H∩E)}{P(H∩E)+P(\neg H∩E)}=\frac{P(H∩E)}{P(E)}$

1.2.2 $求事件的交集概率： P (H \cap E) = P (E) P (H ∣ E)$

1.2.3 $求事件的概率：P(E)=\frac{P(H∩E)}{P(H|E)}$

虽然只是形式的变化，在实际的运用中赋予了不同的含义。
（如果用之前比重的概念就会很好理解。P(E)是总面积，P(H∩E)是实际面积，P(H|E)是比重。理解之后还能转换回来=_=)

对了，有人会犯这个错误：把P(H∩E)看作P(H|E)。仔细想想，一个是H，E同时发生的概率，一个是H在E上发生的概率，两者分母不一样！
右图，我们用面积来算算两者， $P(H∩E)=\frac{S(H∩E)}{S(H∩E)+S(H∩\neg E)+S(\neg H∩E)+S(\neg H∩\neg E)}$ $P(H|E)=\frac{S(H∩E)}{S(H∩E)+S(\neg H∩E)}=\frac{S(H∩E)}{S(E)}$

显然不一样、、、

而且易知P(H|E)和P(E|H)也是不一样的、、、
（前者，用前面的话说，我拿着证据E，来确定结论H发生的概率，所以∩E）
（后者，用前面的话说，我拿着证据H，来确定结论E发生的概率，所以∩H）

$P(E|H)=\frac{S(H∩E)}{S(H∩E)+S(H∩\neg E)}=\frac{S(H∩E)}{S(H)}$

2. 全概率公式

2.1 公式 $P(H)=P(E_{1})P(H|E_{1})+...+P(E_{n})P(H|E_{n})=\sum_{i=1}^{n} P(E_{i})P(H|E_{i})$

P(Ei)：P(Ei)>0
P(Ei)之和：1
i≠j：Ei≠Ej

这个公式用于求一个结论H的概率（朴实无华）。
它由1.2.2扩展而来： $求事件的交集概率： P (H \cap E) = P (E) P (H ∣ E)$

（如果用之前比重的概念就会很好理解。P(E)是总面积，P(H∩E)是实际面积，P(H|E)是实际比重。理解之后还能转换回来=_=)

2.1 公式理解

这个公式精髓在于，枚举了所有可能支持结论H的的证据Ei，P(Ei)>0。
P(Ei)之和为1 ，为全集U，所以全概率公式左边其实是 $P(H)=P(H∩U)=P(H∩(E_{1}∪E_{2}∪...∪E_{n}))=$
$P((H∩E_{1})∪(H∩E_{2})∪...∪(H∩E_{n}))$
因为 $P (A \cup B) = P (A) + P (B) - P (A \cap B)$
所以 $P((H∩E_{1})∪(H∩E_{2}))=P(H∩E_{1})+P(H∩E_{2})-P(H∩E_{1}∩H∩E_{2})$
而 $Ei≠Ej=>Ei∩Ej=\phi$
所以 $P((H∩E_{1})∪(H∩E_{2}))=P(H∩E_{1})+P(H∩E_{2})$
推广到n就是全概率公式了。

2.2 几何理解

P(U)是总面积，P(Ei)是分面积，和为总面积，P(H|Ei)是分面积比重，P(Ei)P(H|Ei)得到实际分面积，从i加到n，就求出了实际总分面积P(H|U)。这里的分，是指分给H的面积。

总之，相当于把总面积U分成了n份，在每一份上求分给H的面积，累加起来就是总面积U分给H的面积。

3. 贝叶斯公式

3.1 公式 $P(H|E)=\frac{P(H)P(E|H)}{P(E)}$

P(H|E)：在E发生的情况下H发生的概率，也叫后验概率。
P(E|H)：在H发生的情况下E发生的概率。
P(H)：H发生的概率，也叫先验概率。
P(E)：E发生的概率。

终于到介绍先验概率和后验概率的时候（忘记了回去看看）。
这个公式用于证据和结论的互推（理解互推）。
它由1.2.1，1.2.2扩展而来：
$：P(H|E)=\frac{P(H∩E)}{P(E)}$
$求事件的交集概率：$ $P (H \cap E) = P (E \cap H) = P (H) P (E ∣ H)$
（如果用之前比重的概念就会很好理解。P(E)是总面积，P(H∩E)是实际面积，P(H|E)是实际比重。理解之后还能转换回来=_=)

3.1 公式理解

1.2.2式带入1.2.1式即可。我更愿意称贝叶斯公式为条件概率公式的灵活变形，而不是某些定式的东西，还是知二求一的范围。

3.2 几何理解

P(H)是H的总面积，P(E|H)是H分给E的面积比重，P(H)P(E|H)相乘就是H分给E的面积，而这面积是两者共有的，所以也是E分给H的面积，它与E的总面积P(E)的比例就是E分给H的面积比重P(H|E)。

3.3 应用

3.3.1 主观Bayes推理

接下来混合着理解

3.3.1.1 知识的不确定性表示

$if\quad E\quad then\quad (LS,LN)\quad H$
$其中LS=\frac{P(E|H)}{P(E|\neg H)}\quad LN=\frac{1-P(E|H)}{1-P(E|\neg H)}=\frac{P(\neg E|H)}{P(\neg E|\neg H)}$
上面就是一条知识，描述在证据E的支持下H的发生情况。
看到那个if then没，不是有一句：人生是由无数选择构成的。
比如你希望条件是吃饭，结果是快乐。
如果某人的知识表示为：if 吃饭 then (∞,0)快乐
那么你有一天看他(她(它(祂)))吃饭了，那么你可以以接近∞的把握说：这人快乐。

知识就是一种选择性的认同。当然你的选择可能是错的(?)，所以有不确定性。
这个不确定性就用LS，LN描述。
LS是该知识的充分性度量，LN是该知识的必要性度量。

先看LS，它是P(E|H)与P(E|~H)的比值，由前面可知，P(E|H)是E占H的面积比重， P(E|~H)是E占 ~H的面积比重。当比值越大，E占H的面积比重越大，E占 ~H的面积比重越小，意味着E更愿意出现在H，去支持H。比值越大，E越充分支持。

如果某人的知识表示为：if 吃饭 then (∞,0)快乐

举个例子，LS从0->∞，
当LS=0，E只出现在 ~H，说明：(拿着证据E)一定推不出吃饭使我快乐。
当0<LS<1，E较多出现在 ~H，说明：小概率推出吃饭使我快乐。
当LS=1，E出现在H和 ~H次数一样多，说明：吃饭和我的快乐没关系。
当LS>1，E较多出现在H，说明：大概率推出吃饭使我快乐。
当LS->∞，E只出现在H，说明：一定推出吃饭使我快乐。

可见，当LS从0->∞，通过E推出H成立的可能性越大。

对于LN，
它是P( ~E|H)与P( ~E| ~H)的比值，比值越大，意味着 ~E越愿意出现在 H，
同上理，

当LN从0->∞，通过 ~E推出H成立的可能性越大。
注意一个证据不能同时支持和反对一个结论（而我们一般是通过E推H）。
所以通过E推出H成立的可能性越小。

意味着，反过来，当LN从∞->0时，通过E推出H成立的可能性越大。E在H占的位置越来越重要，说明H成立越需要E的支持，E显得越来越必要。

如果某人的知识表示为：if 吃饭 then (∞,0)快乐

再看这句话，可以想象成坐标轴。
充分性和必要性可以看作向不同的方向趋近。
在这里插入图片描述
LS->∞，E越是充分。
LN->0，E越是必要。

再来看看LS，LN怎么来的。
$E证明H的概率：P(H|E)=\frac{P(E|H)P(H)}{P(E)}$
$E证明\neg H的概率：P(\neg H|E)=\frac{P(E|\neg H)P(\neg H)}{P(E)}$
两式相除得：
$\frac{P(H|E)}{P(\neg H|E)}=\frac{P(E|H)}{P(E|\neg H)}\times\frac{P(H)}{P(\neg H)}$
中间即LS。
LN同理，将E改为~E即可。
为了简便，引入几率函数（为了简便！！！几率和概率很好转换的）
$O(X)=\frac{P(X)}{1-P( X)}=\frac{P(X)}{P(\neg X)}$
几率也好理解，一件事发生比上它不发生，取∞说明一定发生，取0说明一定不发生。
那么相除的式子简化为：
$O(H|E)=LS\times O(H)$

这也好理解，先看LS，即看E对H的支持程度，再看O(H)，即看H自己的努力程度。
当LS<1时，O(H|E)<O(H)，E不支持，还拖你下水。
当LS=1时，O(H|E)=O(H)，E是路人，全靠自己努力。
当LS>1时，O(H|E)>O(H)，E支持你，帮你做的更好。

同理，可得到关于LN的式子，
$O(H|\neg E)=LN\times O(H)$
先看LN，即看 ~E对H的支持程度，再看O(H)，即看H自己的努力程度。
(这里写的不是看E对H的重要程度，因为那样意味着LN越小越重要，不直观)
当LN<1时，O(H|~E)<O(H)， ~E不支持，还拖你下水。
当LN=1时，O(H|~E)=O(H)， ~E是路人，全靠自己努力。
当LN>1时，O(H|~E)>O(H)， ~E支持你，帮你做的更好。

3.3.1.2 证据的不确定性表示

证据E的不确定性可以用概率或者几率表示。
$P(E)、O(X)=\frac{P(X)}{\neg P(X)}$

无论证据有多么复杂，都可以化为合取和析取的形式。

这里引入观察(试验)的概念，对于现实世界来说，我们只能通过观察这个事件去推测一件事件发生的概率。他是推理的基础和起点。比如P(S)是我们的预设值，即先验概率，而P(E|S)，是在观察的基础上得到E发生的概率，即后验概率，我们把P(S)更新为P(E|S)，就可以由观察修改后的E概率去进行推理和修改网络，这样现实就和我们的推理联系起来了。它是基于现实的，具有现实意义。(还记得开头吧…)

假如每个单一证据Ei在观察S下概率为P(Ei|S)
当证据是合取的形式：
$E=E1\quad ∩\quad E2\quad ∩\quad ... \quad ∩\quad En$
组合证据的概率为
$P(E|S)=\min{P(E_{i}|S)}$
为什么取最小值？首先看取值是为了什么，是为了确定证据组合起来的概率，是要取出可以代表这些单一证据的概率，相当于选主席啦！

主席一般指位居主要席位或主人席位的人，现在多指会议主持人或机构、委员会内的领导人。

从释义可见重要，主席就是领导，全靠领导指方向，定结论，主席代表了千千万万的据意。

正好是合取，合取嘛，都要照顾到，一个不能落下，所以你得保证组合证据的概率<=每个单一证据的概率。不然如果你组合证据的概率大了，组合证据成立时，单一证据由于概率小，成立不了，你这不是没照顾到。取最小值，最小值都满足了，那肯定OK了。那我为什么不取0，这不任意情况都满足了，但是一切要从实际出发，这堆证据最小也有Emin的概率发生！（主席始终代表最底层的据意）

当证据是析取的形式：
$E=E1\quad∪ \quad E2\quad ∪\quad ... \quad ∪\quad En$
组合证据的概率为
$P(E|S)=\max{P(E_{i}|S)}$
而这时候要取最大值，为什么？析取

由于“析”有将木头分开的意思，所以就引申为分开、分析、分解、分散等意思。

分开着取，意味着我没必要都照顾到啊，所以只要保证组合证据的概率>=某一单一证据的概率。但问题又来了！为什么不取1，这不任意情况都满足了，要始终记住一切从实际出发，代表不是无根之木，无源之水。他(她(它(祂)))最多也只能代表最高层的据意。为什么不取最小值，这不至少有一种情况被满足。懂得都懂，是因为考虑群体利益最大化，当组合证据概率=最小值，每次都只能满足一据，当组合证据概率=最大值，每次可以满足所有证据的意愿！虽然单一证据失败了，但是组合证据带动所有证据，向最高证据看齐，最终所有证据都获得了肯定，这是集体精神的胜利，万岁！

3.3.1.3 不确定性的更新

(再理解一次：先验概率，事先给的概率。后验概率，试验后得到的概率。观察，沟通现实的桥梁。LS：E对H的支持程度。LN：~E对H的支持程度)

现在有先验概率P(E)，P(H)，LS，LN的值，
要做的是，
在观察S下，
把P(H)更新为后验概率P(H|S)。

(1) 证据肯定为真
观不观察已经没得关系了，P(E|S)=P(E)=1，P(H|E)=P(H|S)
$P(H|E)=\frac{LS\times P(H)}{(LS-1)\times P(H)+1}$
上述公式回到推导LS的式子反求P(H|E)即可。
(2) 证据肯定为假
观不观察已经没得关系了，P(E|S)=P(E)=0，P(H|~E)=P(H|S)
$P(H|\neg E)=\frac{LN\times P(H)}{(LN-1)\times P(H)+1}$
(3) 证据不确定真假
现在需要观察了，讨论观察的情况。
- P(E|S)=1，观察发现证据肯定为真，回到(1)
  $P (H ∣ S) = P (H ∣ E) = . . .$
- P(E|S)=0，观察发现证据肯定为假，回到(2)
  $P(H|S)=P(H|\neg E)=...$
- P(E|S)=P(E)，观察发现：与观察没得关系。E概率不变，所以H概率也不变。
  $P (H ∣ S) = P (H)$
- P(E|S)不是特殊值。观察发现没有规律。
  这里采取线性插值的手段。
  
  现在求常规点就很好求了，直接相似三角形，别看下面公式长。
  $P(H|S)=\begin{cases} P(H|\neg E)+\frac{P(H)-P(H|\neg E)}{P(E)}\times P(E|S)\quad 0\le P(E|S)<P(E)\\ P(H)+\frac{P(H|E)-P(H)}{1-P(E)}\times\left[P(E|S)-P(E)\right] \quad P(E)\le P(E|S)\le 1 \end{cases}$
  示范一下求 [0，P(E)) 的点。
  先画辅助线。
  
  勾出相似边

$P (H ∣ S i) = P (H ∣ E) + X$
$\frac{X}{P(H)-P(H|\neg E)}=\frac{P(E|S_{i})}{P(E)}$
合起来就是
$P(H|Si)=P(H|~E)+\frac{(P(H)-P(H|\neg E))\times P(E|S_{i})}{P(E)}$
更新后验概率就这样，完事。

3.3.1.4 结论不确定性的合成

假设有n条知识都支持同一结论H…那么在n个观察下H的后验几率为
$O(H|S_{1},S_{2}...S_{n})=\frac{O(H|S_{1})}{O(H)}\times\frac{O(H|S_{2})}{O(H)}\times...\times\frac{O(H|S_{n})}{O(H)}\times O(H)$
这也好理解，比如看
$\frac{O(H|S_{1})}{O(H)}$
熟悉的同学一眼看出，是如下的变形
$O(H|E)=LS\times O(H)$
$\frac{O(H|S_{1})}{O(H)}=LS_{1}$
那么后验几率其实是
$O(H|S_{1},S_{2}...S_{n})=LS_{1}\times LS_{2}\times ...\times LS_{n}\times O(H)$
用前面的话说，在S1,S2...Sn的支持下，加上H自己的努力，就是在支持的条件下努力的结果。

3.3.1.5 Bayes推理的例子

能给出例子当然更好啦。

@Moota

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
数学-先验概率和后验概率和一系列概率公式理解

一. 先验概率和后验概率理解这两个都是描述某个结论H发生的概率。假如我当前什么证据都没有，就根据之前的人生经历，思索下说P(H)=0.99，认为结论H发生的可能高达99%，那这时的P(H)就是先验概率。为什么呢？先验嘛，事先验证过，我虽然不知道当前发生了什么，但我可以用之前的事实来推测结论H发生的概率，也别管对不对。然后我通过试验有证据了，用这个证据E证明，结论H发生的概率为1%，即P(H|E)=0.01。那么这时的P(H|E)就是后验概率。为什么呢？后验，后来验证过，我拿着最新的证据E，实实在
复制链接

扫一扫