全部笔记的汇总贴:《百面机器学习》-读书笔记汇总
对于这一部分不太熟悉的,可以看看这篇文章里的视频学习一下:白板推导系列笔记(九)-概率图模型
对于一个实际问题,我们希望能够挖掘隐含在数据中的知识。概率图模型构建了这样一幅图,用观测结点表示观测到的数据,用隐含结点表示潜在的知识,用边来描述知识与数据的相互关系,最后基于这样的关系图获得一个概率分布,非常“优雅”地解决了问题。
概率图中的节点分为隐含节点和观测节点,边分为有向边和无向边。从概率论的角度,节点对应于随机变量,边对应于随机变量的依赖或相关关系,其中有向边表示单向的依赖,无向边表示相互依赖关系。
概率图模型分为贝叶斯网络(Bayesian Network)和马尔可夫网络(Markov Network)两大类。贝叶斯网络可以用一个有向图结构表示,马尔可夫网络可以表示成一个无向图的网络结构。更详细地说,概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等,在机器学习的诸多场景中都有着广泛的应用。
一、概率图模型的联合概率分布
概率图模型最为“精彩”的部分就是能够用简洁清晰的图示形式表达概率生成的关系。而通过概率图还原其概率分布不仅是概率图模型最重要的功能,也是掌握概率图模型最重要的标准。
- ★☆☆☆☆ 能否写出图中贝叶斯网络的联合概率分布?
由图可见,在给定A的条件下B和C是条件独立的,基于条件概率的定义可得 P ( C ∣ A , B ) = P ( B , C ∣ A ) P ( B ∣ A ) = P ( B ∣ A ) P ( C ∣ A ) P ( B ∣ A ) = P ( C ∣ A ) P(C|A,B)=\frac{P(B,C|A)}{P(B|A)}=\frac{P(B|A)P(C|A)}{P(B|A)}=P(C|A) P(C∣A,B)=P(B∣A)P(B,C∣A)=P(B∣A)P(B∣A)P(C∣A)=P(C∣A)
同理,在给定B和C的条件下A和D是条件独立的,可得 P ( D ∣ A , B , C ) = P ( A , D ∣ B , C ) P ( A ∣ B , C ) = P ( A ∣ B , C ) P ( D ∣ B , C ) P ( A ∣ B , C ) = P ( D ∣ B , C ) P(D|A,B,C)=\frac{P(A,D|B,C)}{P(A|B,C)}=\frac{P(A|B,C)P(D|B,C)}{P(A|B,C)}=P(D|B,C) P(D∣A,B,C)=P(A∣B,C)P(A,D∣B,C)=P(A∣B,C)P(A∣B,C)P(D∣B,C)=P(D∣B,C)
所以,联合概率 P ( A , B , C , D ) = P ( A ) P ( B ∣ A ) P ( C ∣ A , B ) P ( D ∣ A , B , C ) = P ( A ) P ( B ∣ A ) P ( C ∣ A ) P ( D ∣ B , C ) P(A,B,C,D)=P(A)P(B|A)P(C|A,B)P(D|A,B,C)\\=P(A)P(B|A)P(C|A)P(D|B,C) P(A,B,C,D)=P(A)P(B∣A)P(C∣A,B)P(D∣A,B,C)=P(A)P(B∣A)P(C∣A)P(D∣B,C)
- ★☆☆☆☆ 能否写出上图中马尔可夫网络的联合概率分布?
在马尔可夫网络中,联合概率分布的定义为 P ( x ) = 1 Z ∏ Q ∈ C ψ Q ( x Q ) P(x)=\frac1Z\prod_{Q\in C}\psi_Q(x_Q) P(x)=Z1