自用。
一. 先验概率和后验概率理解
这两个都是描述某个结论H发生的概率。
- 假如我当前什么证据都没有,就根据之前的人生经历,思索下说P(H)=0.99,认为结论H发生的可能高达99%,那这时的P(H)就是先验概率。
为什么呢?先验嘛,事先验证过,我虽然不知道当前发生了什么,但我可以用之前的事实来推测结论H发生的概率
,也别管对不对。 - 然后我通过试验有证据了,用这个证据E证明,结论H发生的概率为1%,即P(H|E)=0.01。那么这时的P(H|E)就是后验概率。
为什么呢?后验,后来验证过,我拿着最新的证据E,实实在在的证明了结论H发生的概率
。
然后我们带着这个理解去看看公式。
二. 概率公式
提示:证据可以作为结论,结论可以作为证据。它们都是事件,看你怎么用,就怎么称呼。变量名也是,叫A叫H都可以,实质作用没变
。
1. 条件概率公式
1.1 公式 P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)=\frac{P(A∩B)}{P(B)} P(A∣B)=P(B)P(A∩B)
P(A|B):在B发生的情况下A发生的概率。
P(A∩B):A,B都发生的概率。
P(B):B发生的概率。
先摆…图,讲究的话将就一下 。
1.2 理解
简单理解一下:众所周知,上面A是A发生的区域,B是B发生的区域,A∩B是A和B的交集,是A发生,B也发生的区域。那么求A区域落在B区域的比例是在求什么
,其实就是在求B发生的情况下A发生的概率啦,即条件概率P(A|B)。
然后看条件概率公式,P(A|B)在之前理解时不是后验概率,怎么到这个是条件概率了?
错误理解:那这得根据当前的语境(不是H,E换成A,B啊),确定它叫什么。两者从不同角度描述了概率的类型。
正确理解:后验概率是一种被赋予了现实意义的条件概率。把A,B换成H,E。
P
(
H
∣
E
)
=
P
(
H
∩
E
)
P
(
E
)
P(H|E)=\frac {P(H∩E)}{P(E)}
P(H∣E)=P(E)P(H∩E)
之前说到,我拿着最新的证据E,实实在在的证明了结论H发生的概率。
这个过程说明了什么呢?我拿的是E,不是其他的证据,去确定结论H的概率,也就是说概率的确定是有条件的,这个条件就是我拿的E、、、所以后验概率是一种被赋予了现实意义的条件概率。
自然,后验概率可以表示成P(H|E)。
这个过程发生了什么呢,摆…图
左图,试验中,我们可以记录钦定的证据E的概率,即P(E),毕竟证据不止证据E呢(统称~E)
右图,我们可以记录钦定的结论H和证据E都发生的概率,即P(H∩E),毕竟还有三种情况呢( ~H∩E, H∩~E, ~ H∩~E)。
可以看见,P(E)和P(H∩E)不在一个样本空间,那么求其比例就可以重新组织基本事件为:E发生H发生,E发生H不发生。把P(E)当作总体,然后求得P(H∩E)占总体的比重
。这个比重就是在证据E的基础上有多大可能推出结论H的概率,即P(H|E)。(用前面的话说,我拿着证据E,来确定结论H发生的概率,所以∩E)。
然后我们可以知道P(H|E)=P(H∩E)/P(E)
是合理的。
然后可以通过这个公式知二求一
。
1.2.1 求 条 件 概 率 : P ( H ∣ E ) = P ( H ∩ E ) P ( H ∩ E ) + P ( ¬ H ∩ E ) = P ( H ∩ E ) P ( E ) 求条件概率 :P(H|E)=\frac{P(H∩E)}{P(H∩E)+P(\neg H∩E)}=\frac{P(H∩E)}{P(E)} 求条件概率:P(H∣E)=P(H∩E)+P(¬H∩E)P(H∩E)=P(E)P(H∩E)
1.2.2 求 事 件 的 交 集 概 率 : P ( H ∩ E ) = P ( E ) P ( H ∣ E ) 求事件的交集概率: P(H∩E)=P(E)P(H|E) 求事件的交集概率:P(H∩E)=P(E)P(H∣E)
1.2.3 求 事 件 的 概 率 : P ( E ) = P ( H ∩ E ) P ( H ∣ E ) 求事件的概率:P(E)=\frac{P(H∩E)}{P(H|E)} 求事件的概率:P(E)=P(H∣E)P(H∩E)
虽然只是形式的变化,在实际的运用中赋予了不同的含义。
(如果用之前比重的概念就会很好理解。P(E)是总面积,P(H∩E)是实际面积,P(H|E)是比重。理解之后还能转换回来=_=)
对了,有人会犯这个错误:把P(H∩E)看作P(H|E)。
仔细想想,一个是H,E同时发生的概率,一个是H在E上发生的概率,两者分母不一样!
右图,我们用面积来算算两者,
P
(
H
∩
E
)
=
S
(
H
∩
E
)
S
(
H
∩
E
)
+
S
(
H
∩
¬
E
)
+
S
(
¬
H
∩
E
)
+
S
(
¬
H
∩
¬
E
)
P(H∩E)=\frac{S(H∩E)}{S(H∩E)+S(H∩\neg E)+S(\neg H∩E)+S(\neg H∩\neg E)}
P(H∩E)=S(H∩E)+S(H∩¬E)+S(¬H∩E)+S(¬H∩¬E)S(H∩E)
P
(
H
∣
E
)
=
S
(
H
∩
E
)
S
(
H
∩
E
)
+
S
(
¬
H
∩
E
)
=
S
(
H
∩
E
)
S
(
E
)
P(H|E)=\frac{S(H∩E)}{S(H∩E)+S(\neg H∩E)}=\frac{S(H∩E)}{S(E)}
P(H∣E)=S(H∩E)+S(¬H∩E)S(H∩E)=S(E)S(H∩E)
显然不一样、、、
而且易知P(H|E)和P(E|H)也是不一样的、、、
(前者,用前面的话说,我拿着证据E,来确定结论H发生的概率,所以∩E)
(后者,用前面的话说,我拿着证据H,来确定结论E发生的概率,所以∩H)
P ( E ∣ H ) = S ( H ∩ E ) S ( H ∩ E ) + S ( H ∩ ¬ E ) = S ( H ∩ E ) S ( H ) P(E|H)=\frac{S(H∩E)}{S(H∩E)+S(H∩\neg E)}=\frac{S(H∩E)}{S(H)} P(E∣H)=S(H∩E)+S(H∩¬E)S(H∩E)=S(H)S(H∩E)
2. 全概率公式
2.1 公式 P ( H ) = P ( E 1 ) P ( H ∣ E 1 ) + . . . + P ( E n ) P ( H ∣ E n ) = ∑ i = 1 n P ( E i ) P ( H ∣ E i ) P(H)=P(E_{1})P(H|E_{1})+...+P(E_{n})P(H|E_{n})=\sum_{i=1}^{n} P(E_{i})P(H|E_{i}) P(H)=P(E1)P(H∣E1)+...+P(En)P(H∣En)=i=1∑nP(Ei)P(H∣Ei)
P(Ei):P(Ei)>0
P(Ei)之和:1
i≠j:Ei≠Ej
这个公式用于求一个结论H的概率(朴实无华)。
它由1.2.2扩展而来:
求
事
件
的
交
集
概
率
:
P
(
H
∩
E
)
=
P
(
E
)
P
(
H
∣
E
)
求事件的交集概率: P(H∩E)=P(E)P(H|E)
求事件的交集概率:P(H∩E)=P(E)P(H∣E)
(如果用之前比重的概念就会很好理解。P(E)是总面积,P(H∩E)是实际面积,P(H|E)是实际比重。理解之后还能转换回来=_=)
2.1 公式理解
这个公式精髓在于,枚举了所有可能支持结论H的的证据Ei,P(Ei)>0。
P(Ei)之和为1 ,为全集U,所以全概率公式左边其实是
P
(
H
)
=
P
(
H
∩
U
)
=
P
(
H
∩
(
E
1
∪
E
2
∪
.
.
.
∪
E
n
)
)
=
P(H)=P(H∩U)=P(H∩(E_{1}∪E_{2}∪...∪E_{n}))=
P(H)=P(H∩U)=P(H∩(E1∪E2∪...∪En))=
P
(
(
H
∩
E
1
)
∪
(
H
∩
E
2
)
∪
.
.
.
∪
(
H
∩
E
n
)
)
P((H∩E_{1})∪(H∩E_{2})∪...∪(H∩E_{n}))
P((H∩E1)∪(H∩E2)∪...∪(H∩En))
因为
P
(
A
∪
B
)
=
P
(
A
)
+
P
(
B
)
−
P
(
A
∩
B
)
P(A∪B)=P(A)+P(B)-P(A∩B)
P(A∪B)=P(A)+P(B)−P(A∩B)
所以
P
(
(
H
∩
E
1
)
∪
(
H
∩
E
2
)
)
=
P
(
H
∩
E
1
)
+
P
(
H
∩
E
2
)
−
P
(
H
∩
E
1
∩
H
∩
E
2
)
P((H∩E_{1})∪(H∩E_{2}))=P(H∩E_{1})+P(H∩E_{2})-P(H∩E_{1}∩H∩E_{2})
P((H∩E1)∪(H∩E2))=P(H∩E1)+P(H∩E2)−P(H∩E1∩H∩E2)
而
E
i
≠
E
j
=
>
E
i
∩
E
j
=
ϕ
Ei≠Ej=>Ei∩Ej=\phi
Ei=Ej=>Ei∩Ej=ϕ
所以
P
(
(
H
∩
E
1
)
∪
(
H
∩
E
2
)
)
=
P
(
H
∩
E
1
)
+
P
(
H
∩
E
2
)
P((H∩E_{1})∪(H∩E_{2}))=P(H∩E_{1})+P(H∩E_{2})
P((H∩E1)∪(H∩E2))=P(H∩E1)+P(H∩E2)
推广到n就是全概率公式了。
2.2 几何理解
P(U)是总面积,P(Ei)是分面积,和为总面积,P(H|Ei)是分面积比重,P(Ei)P(H|Ei)得到实际分面积,从i加到n,就求出了实际总分面积P(H|U)。这里的分,是指分给H的面积。
总之,相当于把总面积U分成了n份,在每一份上求分给H的面积,累加起来就是总面积U分给H的面积。
3. 贝叶斯公式
3.1 公式 P ( H ∣ E ) = P ( H ) P ( E ∣ H ) P ( E ) P(H|E)=\frac{P(H)P(E|H)}{P(E)} P(H∣E)=P(E)P(H)P(E∣H)
P(H|E):在E发生的情况下H发生的概率,也叫后验概率。
P(E|H):在H发生的情况下E发生的概率。
P(H):H发生的概率,也叫先验概率。
P(E):E发生的概率。
终于到介绍先验概率和后验概率的时候(忘记了回去看看)。
这个公式用于证据和结论的互推(理解互推)。
它由1.2.1,1.2.2扩展而来:
求
条
件
概
率
:
P
(
H
∣
E
)
=
P
(
H
∩
E
)
P
(
E
)
求条件概率 :P(H|E)=\frac{P(H∩E)}{P(E)}
求条件概率:P(H∣E)=P(E)P(H∩E)
求
事
件
的
交
集
概
率
:
求事件的交集概率:
求事件的交集概率:
P
(
H
∩
E
)
=
P
(
E
∩
H
)
=
P
(
H
)
P
(
E
∣
H
)
P(H∩E)=P(E∩H)=P(H)P(E|H)
P(H∩E)=P(E∩H)=P(H)P(E∣H)
(如果用之前比重的概念就会很好理解。P(E)是总面积,P(H∩E)是实际面积,P(H|E)是实际比重。理解之后还能转换回来=_=)
3.1 公式理解
1.2.2式带入1.2.1式即可。我更愿意称贝叶斯公式为条件概率公式的灵活变形,而不是某些定式的东西,还是知二求一
的范围。
3.2 几何理解
P(H)是H的总面积,P(E|H)是H分给E的面积比重,P(H)P(E|H)相乘就是H分给E的面积,而这面积是两者共有的,所以也是E分给H的面积,它与E的总面积P(E)的比例就是E分给H的面积比重P(H|E)。
3.3 应用
3.3.1 主观Bayes推理
接下来混合着理解
3.3.1.1 知识的不确定性表示
i
f
E
t
h
e
n
(
L
S
,
L
N
)
H
if\quad E\quad then\quad (LS,LN)\quad H
ifEthen(LS,LN)H
其
中
L
S
=
P
(
E
∣
H
)
P
(
E
∣
¬
H
)
L
N
=
1
−
P
(
E
∣
H
)
1
−
P
(
E
∣
¬
H
)
=
P
(
¬
E
∣
H
)
P
(
¬
E
∣
¬
H
)
其中LS=\frac{P(E|H)}{P(E|\neg H)}\quad LN=\frac{1-P(E|H)}{1-P(E|\neg H)}=\frac{P(\neg E|H)}{P(\neg E|\neg H)}
其中LS=P(E∣¬H)P(E∣H)LN=1−P(E∣¬H)1−P(E∣H)=P(¬E∣¬H)P(¬E∣H)
上面就是一条知识,描述在证据E的支持下H的发生情况。
看到那个if then没,不是有一句:人生是由无数选择构成的。
比如你希望条件是吃饭,结果是快乐。
如果某人的知识表示为:if 吃饭 then (∞,0)快乐
那么你有一天看他(她(它(祂)))吃饭了,那么你可以以接近∞的把握说:这人快乐。
知识就是一种选择性的认同。当然你的选择可能是错的(?),所以有不确定性。
这个不确定性就用LS,LN描述。
LS是该知识的充分性度量,LN是该知识的必要性度量。
先看LS,它是P(E|H)与P(E|~H)的比值,由前面可知,P(E|H)是E占H的面积比重, P(E|~H)是E占 ~H的面积比重。当比值越大,E占H的面积比重越大,E占 ~H的面积比重越小,意味着E更愿意出现在H,去支持H。比值越大,E越充分支持。
如果某人的知识表示为:if 吃饭 then (∞,0)快乐
举个例子,LS从0->∞,
当LS=0,E只出现在 ~H,说明:(拿着证据E)一定推不出 吃饭使我快乐。
当0<LS<1,E较多出现在 ~H,说明:小概率推出 吃饭使我快乐。
当LS=1,E出现在H和 ~H次数一样多,说明:吃饭和我的快乐没关系。
当LS>1,E较多出现在H,说明:大概率推出 吃饭使我快乐。
当LS->∞,E只出现在H,说明:一定推出 吃饭使我快乐。
可见,当LS从0->∞,通过E推出H成立的可能性越大。
对于LN,
它是P( ~E|H)与P( ~E| ~H)的比值,比值越大,意味着 ~E越愿意出现在 H,
同上理,
当LN从0->∞,通过 ~E推出H成立的可能性越大。
注意一个证据不能同时支持和反对一个结论(而我们一般是通过E推H)。
所以通过E推出H成立的可能性越小。
意味着,反过来,当LN从∞->0时,通过E推出H成立的可能性越大。E在H占的位置越来越重要,说明H成立越需要E的支持,E显得越来越必要。
如果某人的知识表示为:if 吃饭 then (∞,0)快乐
再看这句话,可以想象成坐标轴。
充分性和必要性可以看作向不同的方向趋近。
LS->∞,E越是充分。
LN->0,E越是必要。
再来看看LS,LN怎么来的。
E
证
明
H
的
概
率
:
P
(
H
∣
E
)
=
P
(
E
∣
H
)
P
(
H
)
P
(
E
)
E证明H的概率:P(H|E)=\frac{P(E|H)P(H)}{P(E)}
E证明H的概率:P(H∣E)=P(E)P(E∣H)P(H)
E
证
明
¬
H
的
概
率
:
P
(
¬
H
∣
E
)
=
P
(
E
∣
¬
H
)
P
(
¬
H
)
P
(
E
)
E证明\neg H的概率:P(\neg H|E)=\frac{P(E|\neg H)P(\neg H)}{P(E)}
E证明¬H的概率:P(¬H∣E)=P(E)P(E∣¬H)P(¬H)
两式相除得:
P
(
H
∣
E
)
P
(
¬
H
∣
E
)
=
P
(
E
∣
H
)
P
(
E
∣
¬
H
)
×
P
(
H
)
P
(
¬
H
)
\frac{P(H|E)}{P(\neg H|E)}=\frac{P(E|H)}{P(E|\neg H)}\times\frac{P(H)}{P(\neg H)}
P(¬H∣E)P(H∣E)=P(E∣¬H)P(E∣H)×P(¬H)P(H)
中间即LS。
LN同理,将E改为~E即可。
为了简便,引入几率函数(为了简便!!!几率和概率很好转换的)
O
(
X
)
=
P
(
X
)
1
−
P
(
X
)
=
P
(
X
)
P
(
¬
X
)
O(X)=\frac{P(X)}{1-P( X)}=\frac{P(X)}{P(\neg X)}
O(X)=1−P(X)P(X)=P(¬X)P(X)
几率也好理解,一件事发生比上它不发生,取∞说明一定发生,取0说明一定不发生。
那么相除的式子简化为:
O
(
H
∣
E
)
=
L
S
×
O
(
H
)
O(H|E)=LS\times O(H)
O(H∣E)=LS×O(H)
这也好理解,先看LS,即看E对H的支持程度,再看O(H),即看H自己的努力程度。
当LS<1时,O(H|E)<O(H),E不支持,还拖你下水。
当LS=1时,O(H|E)=O(H),E是路人,全靠自己努力。
当LS>1时,O(H|E)>O(H),E支持你,帮你做的更好。
同理,可得到关于LN的式子,
O
(
H
∣
¬
E
)
=
L
N
×
O
(
H
)
O(H|\neg E)=LN\times O(H)
O(H∣¬E)=LN×O(H)
先看LN,即看 ~E对H的支持程度,再看O(H),即看H自己的努力程度。
(这里写的不是看E对H的重要程度,因为那样意味着LN越小越重要,不直观)
当LN<1时,O(H|~E)<O(H), ~E不支持,还拖你下水。
当LN=1时,O(H|~E)=O(H), ~E是路人,全靠自己努力。
当LN>1时,O(H|~E)>O(H), ~E支持你,帮你做的更好。
3.3.1.2 证据的不确定性表示
证据E的不确定性可以用概率或者几率表示。
P
(
E
)
、
O
(
X
)
=
P
(
X
)
¬
P
(
X
)
P(E)、O(X)=\frac{P(X)}{\neg P(X)}
P(E)、O(X)=¬P(X)P(X)
无论证据有多么复杂,都可以化为合取和析取的形式。
这里引入观察(试验)的概念,对于现实世界来说,我们只能通过 观察 这个事件去推测一件事件发生的概率。他是推理的基础和起点。比如P(S)是我们的预设值,即先验概率,而P(E|S),是在观察的基础上得到E发生的概率,即后验概率,我们把P(S)更新为P(E|S),就可以由观察修改后的E概率去进行推理和修改网络,这样现实就和我们的推理联系起来了。
它是基于现实的,具有现实意义。(还记得开头吧…)
假如每个单一证据Ei在观察S下概率为P(Ei|S)
当证据是合取的形式:
E
=
E
1
∩
E
2
∩
.
.
.
∩
E
n
E=E1\quad ∩\quad E2\quad ∩\quad ... \quad ∩\quad En
E=E1∩E2∩...∩En
组合证据的概率为
P
(
E
∣
S
)
=
min
P
(
E
i
∣
S
)
P(E|S)=\min{P(E_{i}|S)}
P(E∣S)=minP(Ei∣S)
为什么取最小值?首先看取值是为了什么,是为了确定证据组合起来的概率,是要取出可以代表这些单一证据的概率,相当于选主席啦!
主席一般指位居主要席位或主人席位的人,现在多指会议主持人或机构、委员会内的领 导人。
从释义可见重要,主席就是领导,全靠领导指方向,定结论,主席代表了千千万万的据意。
正好是合取,合取嘛,都要照顾到,一个不能落下,所以你得保证组合证据的概率<=每个单一证据的概率
。不然如果你组合证据的概率大了,组合证据成立时,单一证据由于概率小,成立不了,你这不是没照顾到。取最小值,最小值都满足了,那肯定OK了。那我为什么不取0,这不任意情况都满足了,但是一切要从实际出发,这堆证据最小也有Emin的概率发生!(主席始终代表最底层的据意)
当证据是析取的形式:
E
=
E
1
∪
E
2
∪
.
.
.
∪
E
n
E=E1\quad∪ \quad E2\quad ∪\quad ... \quad ∪\quad En
E=E1∪E2∪...∪En
组合证据的概率为
P
(
E
∣
S
)
=
max
P
(
E
i
∣
S
)
P(E|S)=\max{P(E_{i}|S)}
P(E∣S)=maxP(Ei∣S)
而这时候要取最大值,为什么?析取
由于“析”有将木头分开的意思,所以就引申为分开、分析、分解、分散等意思。
分开着取,意味着我没必要都照顾到啊,所以只要保证组合证据的概率>=某一单一证据的概率。
但问题又来了!为什么不取1,这不任意情况都满足了,要始终记住一切从实际出发,代表不是无根之木,无源之水。他(她(它(祂)))最多也只能代表最高层的据意。为什么不取最小值,这不至少有一种情况被满足。懂得都懂,是因为考虑群体利益最大化,当组合证据概率=最小值,每次都只能满足一据,当组合证据概率=最大值,每次可以满足所有证据的意愿!虽然单一证据失败了,但是组合证据带动所有证据,向最高证据看齐,最终所有证据都获得了肯定,这是集体精神的胜利,万岁!
3.3.1.3 不确定性的更新
(再理解一次:先验概率,事先给的概率。后验概率,试验后得到的概率。观察,沟通现实的桥梁。LS:E对H的支持程度。LN:~E对H的支持程度)
现在有先验概率P(E),P(H),LS,LN的值,
要做的是,
在观察S下,
把P(H)更新为后验概率P(H|S)。
- (1) 证据肯定为真
观不观察已经没得关系了,P(E|S)=P(E)=1,P(H|E)=P(H|S)
P ( H ∣ E ) = L S × P ( H ) ( L S − 1 ) × P ( H ) + 1 P(H|E)=\frac{LS\times P(H)}{(LS-1)\times P(H)+1} P(H∣E)=(LS−1)×P(H)+1LS×P(H)
上述公式回到推导LS的式子反求P(H|E)即可。 - (2) 证据肯定为假
观不观察已经没得关系了,P(E|S)=P(E)=0,P(H|~E)=P(H|S)
P ( H ∣ ¬ E ) = L N × P ( H ) ( L N − 1 ) × P ( H ) + 1 P(H|\neg E)=\frac{LN\times P(H)}{(LN-1)\times P(H)+1} P(H∣¬E)=(LN−1)×P(H)+1LN×P(H) - (3) 证据不确定真假
现在需要观察了,讨论观察的情况。-
P(E|S)=1,观察发现证据肯定为真,回到(1)
P ( H ∣ S ) = P ( H ∣ E ) = . . . P(H|S)=P(H|E)=... P(H∣S)=P(H∣E)=... -
P(E|S)=0,观察发现证据肯定为假,回到(2)
P ( H ∣ S ) = P ( H ∣ ¬ E ) = . . . P(H|S)=P(H|\neg E)=... P(H∣S)=P(H∣¬E)=... -
P(E|S)=P(E),观察发现:与观察没得关系。E概率不变,所以H概率也不变。
P ( H ∣ S ) = P ( H ) P(H|S)=P(H) P(H∣S)=P(H) -
P(E|S)不是特殊值。观察发现没有规律。
这里采取线性插值
的手段。
现在求常规点就很好求了,直接相似三角形
,别看下面公式长。
P ( H ∣ S ) = { P ( H ∣ ¬ E ) + P ( H ) − P ( H ∣ ¬ E ) P ( E ) × P ( E ∣ S ) 0 ≤ P ( E ∣ S ) < P ( E ) P ( H ) + P ( H ∣ E ) − P ( H ) 1 − P ( E ) × [ P ( E ∣ S ) − P ( E ) ] P ( E ) ≤ P ( E ∣ S ) ≤ 1 P(H|S)=\begin{cases} P(H|\neg E)+\frac{P(H)-P(H|\neg E)}{P(E)}\times P(E|S)\quad 0\le P(E|S)<P(E)\\ P(H)+\frac{P(H|E)-P(H)}{1-P(E)}\times\left[P(E|S)-P(E)\right] \quad P(E)\le P(E|S)\le 1 \end{cases} P(H∣S)={P(H∣¬E)+P(E)P(H)−P(H∣¬E)×P(E∣S)0≤P(E∣S)<P(E)P(H)+1−P(E)P(H∣E)−P(H)×[P(E∣S)−P(E)]P(E)≤P(E∣S)≤1
示范一下求 [0,P(E)) 的点。
先画辅助线。
勾出相似边
-
P
(
H
∣
S
i
)
=
P
(
H
∣
E
)
+
X
P(H|Si)=P(H|~E)+X
P(H∣Si)=P(H∣ E)+X
X
P
(
H
)
−
P
(
H
∣
¬
E
)
=
P
(
E
∣
S
i
)
P
(
E
)
\frac{X}{P(H)-P(H|\neg E)}=\frac{P(E|S_{i})}{P(E)}
P(H)−P(H∣¬E)X=P(E)P(E∣Si)
合起来就是
P
(
H
∣
S
i
)
=
P
(
H
∣
E
)
+
(
P
(
H
)
−
P
(
H
∣
¬
E
)
)
×
P
(
E
∣
S
i
)
P
(
E
)
P(H|Si)=P(H|~E)+\frac{(P(H)-P(H|\neg E))\times P(E|S_{i})}{P(E)}
P(H∣Si)=P(H∣ E)+P(E)(P(H)−P(H∣¬E))×P(E∣Si)
更新后验概率就这样,完事。
3.3.1.4 结论不确定性的合成
假设有n条知识都支持同一结论H…那么在n个观察下H的后验几率为
O
(
H
∣
S
1
,
S
2
.
.
.
S
n
)
=
O
(
H
∣
S
1
)
O
(
H
)
×
O
(
H
∣
S
2
)
O
(
H
)
×
.
.
.
×
O
(
H
∣
S
n
)
O
(
H
)
×
O
(
H
)
O(H|S_{1},S_{2}...S_{n})=\frac{O(H|S_{1})}{O(H)}\times\frac{O(H|S_{2})}{O(H)}\times...\times\frac{O(H|S_{n})}{O(H)}\times O(H)
O(H∣S1,S2...Sn)=O(H)O(H∣S1)×O(H)O(H∣S2)×...×O(H)O(H∣Sn)×O(H)
这也好理解,比如看
O
(
H
∣
S
1
)
O
(
H
)
\frac{O(H|S_{1})}{O(H)}
O(H)O(H∣S1)
熟悉的同学一眼看出,是如下的变形
O
(
H
∣
E
)
=
L
S
×
O
(
H
)
O(H|E)=LS\times O(H)
O(H∣E)=LS×O(H)
O
(
H
∣
S
1
)
O
(
H
)
=
L
S
1
\frac{O(H|S_{1})}{O(H)}=LS_{1}
O(H)O(H∣S1)=LS1
那么后验几率其实是
O
(
H
∣
S
1
,
S
2
.
.
.
S
n
)
=
L
S
1
×
L
S
2
×
.
.
.
×
L
S
n
×
O
(
H
)
O(H|S_{1},S_{2}...S_{n})=LS_{1}\times LS_{2}\times ...\times LS_{n}\times O(H)
O(H∣S1,S2...Sn)=LS1×LS2×...×LSn×O(H)
用前面的话说,在S1,S2...Sn的支持下,加上H自己的努力,就是在支持的条件下努力的结果。
3.3.1.5 Bayes推理的例子
能给出例子当然更好啦。