本博客中概率图模型(Probabilistic Graphical Model)系列笔记以 Stanford 教授 Daphne Koller 的公开课 Probabilistic Graphical Model 为主线,结合资料(每篇博文脚注都附有链接)加以补充. 博文的章节编号与课程视频编号一致,详情见 PGM(概率图模型)Coursera: 课程资源分享和简介.
笔记持续更新,为便于对照课程查阅,博文中章节编号和名称与课程视频的编号和名称一致.
1. Welcome
生活中很多任务需要人活自动系统推理完,即利用合适的信息去获取结论。例如, 医生需要了解患者的信息一一症状、化验结果、个性特征——并对可能的疾病和采用的治疗方案做出结论。概率图模型属于机器学习一种,能够使计算机系统完成上述类型的任务。
2. Overview and Introduction
2.1 动机
2.1.1 陈述性表示 ( Declarative Representa tion )
面对一个问题,我们通常会先用陈述性表示(Declarative Representation)形式化**这个问题,从而极大地方便了对问题的求解。
使得我们可以通过构建模型描述客观世界中的复杂问题,并对其进行推理。
同一的类型问题可以采用通用形式的模型框架,不同的模型又有通用的算法求解。这使得我们在求解问题时可以灵活选择将问题归为哪一类问题,从而建立相应的模型;同时我们可以选择不同的算法,在准确性和计算成本之间作权衡(trade-offs bewteen accuracy and computational cost)。
一个关键特性是模型和推理的分离。
陈述性表示本身有清晰的语义(stands for itself),并与求解算法分离1。由此,我们可以设计用于不同模型的通用算法,适用于不同领域。反之, 我们可以改进针对一个特别应用领域的模型,选择不同的椎理算法。这使得模型的建立和求解可以分开:根据专业知识来抽象出模型,再基于数据来求解模型参数。
2.1.2 系统的不确定性 ( Uncertainty )
概率图模型讨论涉及不确定性的复杂系统。这是由于比如
- 人们对世界认知的片面性(Partial knowledge of state of the world)
- 观测数据常带有“噪声”(Noisy Observations)
- 我们模型的不全面性(Phenomena not coverd by our model)
- 事件固有的随机型(Inherent stochasticity)
故课程将涵盖很多概率论相关知识.
2.1.3 概率论 ( Probability Theory )
Probability Theory 是我们处理不确定性的方法基础 (theoritical basis of dealing with the uncertainty),它为我们考虑多个可能的结果及其可能性提供了一种形式框架。
- 对不确定性的表述(Declarative representation with clear semantics)
- 有效力的推理方式(Powerful reasoning patterns)
- 体系化的学习算法(Established learning methods)
2.2 结构化概率图模型
2.2.1 复杂系统的联合分布
概率图模型是基于复杂系统(complex systems)的建模,它将为题抽象为对一组随机变量 X1,...,Xn 求联合分布 P(X1,...,Xn) 的问题。
2.2.2 有向图和无向图
概率图模型分为两种基本类型:
- 有向图:贝叶斯网(BNs, Beyas Networks)
- 无向图:马尔可夫网(MNs, Markov Networks)
2.2.3 对偶双重视角
概率图模型把基于图的表示方法作为高维空间上紧凑编码复杂分布的基础。在下图中,节点与问题中的变量对应,而边与两节点变量之间的直接概率相互对应。
对于每个图模型,无论有向(左图)或无向(右图),我们都有对偶双重视角来说明一个图的结构。如图中2的独立关系(Independence)和因子分解(Factorization)。
- 独立关系(Independence)
图是在分布中蕴含的独立关系集合的一个紧凑表示:对于一组变量 X,Y,X 而言,这些关系成为“给定 Z 时,变量
- 因子分解(Factorization)
图定义了紧凑表示高纬分布的一种框架:与其对图中所有变量可能取值的概率进行编码, 不如将分布“分解”为些更小的因子,使每一个因子定义在更小的概率空间上。然后,我们可以将总体的联合分布定义为这些因子的乘积。
结果是这两种视角一一图作为独立关系集合的表示与图作为分解分布的框架一一在深层意义上是等价的。准确地说, 正是分布的独立特性才使得分布能够紧凑地以因子分解的形式表示。反之,分布的一个特别的因子分解确保了某些独立关系的成立。
2.2.4 模型优点
- 将高纬空间的问题用紧凑而有启发性的结构呈现(Intuitive & compact data structure);
- 用通用算法进行高效的推理(Efficient reasoning using general-prupose);
- 将复杂的问题稀疏参数化(Sparse parameterization)
- 将问题可视化(feasible eliciation)
- 从数据中学习(learning from data)
2.2.5 求解过程概述
对于概率图模型的求解要做以下三件事情:
1) 表达(Representation)
- 无向图和有向图(direct and undirect)
- 动态时序(temporal)模型和静态 plate 模型
2) 推断(Inference)
- 精确推断和模糊推断(寻求计算效率和计算精度的平衡)
- 在不确定性状态下进行决策(decision making)
3) 学习(Learning)
- 自动学习参数和结构(parameters and structure)
- 有完全数据情形和非完全数据情形
2.3 概率图模型应用
可参考博文概率图模型(PGM)学习笔记(一)动机与概述.
3. Distribution
3.1 贝叶斯法则
首先我们需要明确贝叶斯法则(Bayes’ Rule)3。
接下来我们将讨论三种分布的概念:联合分布、边缘分布和条件分布。
3.2 联合分布
很多情况下,我们对于几个变量同时的取值有关问题感兴趣,例如我们需要知道事件“ lntellegence = high 且Grade= A”的概率。分析这样的事件,则需要考虑两个随机变量的联合分布(joint distribution)。下图为联合分布的一个例子。
上图表示了随机变量 I,D,G 的一个联合分布,其中包含3个变量,分别是: I (学生智力,有0和1两个取值)、