概率图模型与统计参数估计
1. 概率图模型相关内容
在概率图模型的应用场景中,以医疗诊断为例,当得知患者吸烟这一信息后,各节点的置信状态会发生变化。比如,此时我们会更确信患者患有支气管炎,而非肺结核或肺癌,同时 X 光显示异常结果的预测概率上升到 24%,医生可能会决定安排检查来验证这一假设。
1.1 计算问题
贝叶斯推理能结合噪声证据和先验知识来更新我们对世界的认知,但从联合分布计算边缘分布和条件分布的过程计算量较大。不过,我们可利用分布的条件独立性(CI)属性来提高计算效率。
1.2 学习
若条件概率分布(CPD)的参数未知,可将其视为额外的随机变量,作为节点添加到图中,并当作待推断的隐藏变量。例如,有 N 个独立同分布(iid)的随机变量 $y_n$,都来自具有共同参数 $\theta$ 的同一分布。模型编码的数据生成过程如下:
- $\theta \sim p(\theta)$
- $y_n \sim p(y|\theta)$
对应的联合分布形式为 $p(D, \theta) = p(\theta)p(D|\theta)$,其中 $D = (y_1, \ldots, y_N)$。由于 iid 假设,似然函数可重写为 $p(D|\theta) = \prod_{n=1}^{N} p(y_n|\theta)$。当数据向量的顺序对定义模型不重要时,即可以对概率图模型(PGM)中叶子节点的编号进行置换,我们称数据具有可交换性。
1.3 板记法
在图中,$y$ 节点重复出现 N 次,为避免视觉混乱,常使用板记法。即在重复变量周围画一个小框,框内节点在模