一、贝叶斯网络是什么
贝叶斯网络的思考:
原本的问题:
给定一组样本D,求得在这些样本中出现某个结论 A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1,A2,...,An出现的概率,也就是 P ( A i ∣ D ) P(A_i|D) P(Ai∣D),表示求得给定数据后,哪个结论出现的概率最大。
问题转化: m a x P ( A i ∣ D ) = m a x P ( D ∣ A i ) P ( A i ) P ( D ) = m a x P ( D ∣ A i ) P ( A i ) ⟹ m a x P ( D ∣ A i ) maxP(A_i|D)= max\frac{P(D|A_i)P(A_i)}{P(D)}=maxP(D|A_i)P(A_i)\implies maxP(D|A_i) maxP(Ai∣D)=maxP(D)P(D∣Ai)P(Ai)=maxP(D∣Ai)P(Ai)⟹maxP(D∣Ai)
将问题转化为,计算出在给定不同结论的条件下,事件D发生的概率,取最大的概率值,也就是在该结论A下,事件D发生的概率最大,所以可以看成是事件D产生结论A的概率最大。
-
P ( D ) P(D) P(D):是定值,因为该概率是已经发生的事件D的概率,是已知的东西,不会变化
-
P ( A i ) P(A_i) P(Ai):各个结论发生的先验概率是相等的。
m a x P ( D ∣ A i ) maxP(D|A_i) maxP(D∣Ai):可以看成是先验性的假定结论A出现的概率都是相等的,而贝叶斯则要更多的探讨先验概率。
**频率学派:**假定P(A_i)是相等的,事件与先验无关。
示例1:
示例2:
二、朴素贝叶斯
拉普拉斯平滑:
如果一个词出现的概率为0,则无意义,做拉普拉斯平滑。
三、贝叶斯网络的建立
为什么要建立贝叶斯网络:
对于一个联合概率分布,我们需要跟多个独立变量来表示,甚至独立变量的个数会呈现指数级的增长。例如,考虑P(X 1 ,X 2 ,X 3 ,⋯,X n ) ,假如,每一个X i 都是二项分布的话。这样联合概率里面就有至少2 n −1 个参数(对应的是X 1 ,⋯,Xn 的全排列数目减一,减掉1是因为最后一种情况可以用1减掉之前的所有概率)。
因此我们希望通过建立联合概率与图的关联,从图中找到条件独立性论断(并且我们可以证明,图中的条件独立性论断在联合概率中都是成立的),这样就可以将原始的联合概率写成多个独立因子的乘积,从而减少独立变量的个数,使得模型更加“紧凑”。
将三个变量变为k个:
正常的贝叶斯网络:
要求的该贝叶斯网络的条件概率分布,也就是要求出1~7个节点各自所属的条件分布连乘即可。
对4而言,只和1,2,3有关
正常而言有 2 5 2^5 25种不同的情况,但贝叶斯网络有13种情况,因为我们简化的网络的连接情况,也就是有的点没有直接相连,简化了很多参数,越利于网络建模。
抽烟:只需要一个抽烟的概率,参数为1
肺癌:只和抽烟有关,抽烟情况下有一个得肺癌的概率,不抽烟情况有一个肺癌的概率,参数为2
支气管炎:只和抽烟有关,抽烟情况下有一个得肺癌的概率,不抽烟情况有一个肺癌的概率,参数为2
X-ray:和抽烟及肺癌都有关,所以是(0,0),(0,1),(1,0),(1,1)四种情况,参数为4
呼吸困:和支气管炎及肺癌都有关,所以是(0,0),(0,1),(1,0),(1,1)四种情况,参数为4(图中看起来是8个, 其实每行的和都为1,所以实质上给定一个另一个也不变)
特殊的贝叶斯网络:
三个独立性条件:
1. 观测到的时候是阻断的
2. 观测到的时候是阻断的
C未给定时,无法判断a、b是否独立,看不到c
3. 未观测到的时候是阻断的
如果c给定了,a、b就不独立了,因为如果观测到了c,就说明两者之间建立了某种联系。
贝叶斯网络,可以通过三种基本的网络拓扑,可以判断a和b是否是独立的。
I是独立,D是不独立
在没有先验的情况下,油箱有油和能开广播是独立的吗?
答:是独立的
如果已知电池有电,则油箱有油和能开广播是独立的吗?
答:是独立的,因为在Battery确定了之后,左边的开广播和右边的四个节点是tial-to-tail的关系,所以是独立的。
贝叶斯网络的构建: