贝叶斯概率论
简介
在本章前面的学习中,已经从随机的、可重复的事件出现的频率角度中观察了概率。这些被称为概率的经典或常规解释。这一篇的学习将转向普遍的贝叶斯观点,这里概率将不确定性进行了量化。
不确定事件
接下来列举几个不确定事件:
- 月亮是否曾经是围绕着太阳公转
- 北极冰层是否会在本世纪末消失
这些不确定事件无法通过重复多次来对其概率下定义,不像之前 1.2 开头所列举的从水果盒中取水果来判断概率的例子一样。下面两张图为 1.2 水果盒例子。
尽管如此,这里依旧能通过一些想法来对北极冰层是否会在本世纪末消失这一话题进行判断,例如通过已知的北极冰层的融化速度,但是如果有最新的对于地球整体气候变化的诊断报告以及社会对于之一话题所采取的措施,那么对于这一话题的判断有可能会有所改变。例如,社会的主流趋势集中在节能减排上,那么温室效应能够有所减缓。
接下来为本人梳理的这一事件的思考过程:
- 世纪末北极冰川是否会消失 -> 冰川消失时间点 =现在的时间点 + 现有冰川面积/冰川融化速度
- 现在时间点、现有冰川面积都为确定值;只有冰川融化速度拥有不确定性
- 引入新事件:社会推广节能减排
- 新事件造成的效应:温室效应将有所减缓
- 最终导致:冰川融化速度减慢
- 这将导致对于不确定性(冰川融化速度)的判断有所变化:社会是否会响应社会的号召,加大力度实施节能减排?节能减排的力度为多少?
在这一冰川融化话题中,事件中出现的不确定性希望得到量化,而且新出现的事件以及证据将会改变对于不确定性的原有判断。为了能够采取最佳决策以及行动,这里可以通过使用笼统的贝叶斯理念来解释其中所有的概率。
使用概率来表示不确定性并不是特定的选择,但是在做出合理的连贯推理时尊重常识,这是将是不可避免的:
- (Cox 1946) 如果使用数值来表示信念程度,则此类信念的操作规则可以基于编码此类信念程度的常识属性,等同于一些简单公理:概率的相乘或者相加
- (Jaynes,2003)提供了一个严格的证据,概率可以看作是布尔逻辑(Boolean logic)对不确定情形的扩展
- (Ramsey,1931; Good,1950; Savage,1961; deFinetti,1970; Lindley,1982)提出了概率不同的性质与公理集,将不确定性量化应该基于这些性质与公理集
贝叶斯概率((Bayesian) probabilities):在每种情况下,所得到的数值量均可以根据概率规则进行精确的展示
模式识别领域
有一个更通用的概率概念在模式识别领域是有帮助的。在1.1章节中讨论过的多项式曲线拟合的示例,如下图所示
使用概率的频率性来观测变量 t n t_n tn出现的随机值是合理的。然而,这里则需要量化和确定适合模型参数 w w w的不确定性。从贝叶斯的角度出发,这里可以使用概率论的机制来描述模型参数(例如 w w w)的不确定性,或者描述在选择模型本身中的不确定性。
贝叶斯新的意义
在水果盒例子中,对各个水果种类的观测提供了影响结果的相关信息,这些信息改变了最终选择为红色盒子这一事件的概率。在这一事例中,贝叶斯通过合并观测数据所提供证据的方法,将先验概率转化为后验概率。在量化的推论时,例如对于参数 w w w在多项式曲线拟合的过程中,也可以使用类似的方法:
- 在观察数据之前,以先验概率分布 p ( w ) p(w) p(w)的形式获取关于参数 w w w的假设
- 通过条件概率 p ( D ∣ w ) p(D|w) p(D∣w)表示数据 D = t 1 , t 2 , . . . , t n D={t_1,t_2,...,t_n} D=t1,t2,...,tn的影响
- 通过贝叶斯,可以展示成如下公式: p ( w ∣ D ) = p ( D ∣ w ) P ( w ) P ( D ) p(w|D)=\frac {p(D|w)P(w)} {P(D)} p(w∣D)=P(D)p(D∣w)P(w)
上述公式可以从后验概率 p ( w ∣ D ) p(w|D) p(w∣D)的角度观察:在观测D之后,评估 w w w的不确定性。
似然函数(likelihood function)
观察到的数据集D可以用于评估贝叶斯定理右侧的 p ( D ∣ w ) p(D|w) p(D∣w),并且将其视为参数矢量 w w w的函数,在这种情况下其被称为似然函数(likelihood function)。它表示观测到的数据集在不同参数向量 w w w设置下的可能性,这里需要注意的是,似然不是 w w w上的概率分布,并且其相对于 w w w的积分不(必须)等于1。
给定了似然的定义之后,可以用语言阐述贝叶斯定理:posterior α \alpha α likelihood x prior,其中所有的量都被视为 w w w的 函数。在(1.43)中的分母为归一化常数,它确保了左侧的后验分布是有效的概率密度并且其积分为1。确实,将(1.43)的两边对于 w w w进行积分,可以根据先验分布和似然函数来表达贝叶斯定理中的分母。
(1.43)公式
p
(
w
∣
D
)
=
p
(
D
∣
w
)
P
(
w
)
P
(
D
)
p(w|D)=\frac {p(D|w)P(w)} {P(D)}
p(w∣D)=P(D)p(D∣w)P(w)
两边进行积分后得出
p
(
D
)
=
∫
p
(
D
∣
w
)
P
(
w
)
d
w
p(D)=\displaystyle \int p(D|w)P(w)d_w
p(D)=∫p(D∣w)P(w)dw
在贝叶斯范式和频率派范式中,似然函数 p ( D ∣ w ) p(D|w) p(D∣w)都起着核心作用。但是,在这两种方法中,使用它的方法会有本质上的区别:
- 在频率派的设置中:
a. w w w被视为固定参数,
b.其值通过某种形式的估计量来确定,
c.通过考虑可能的数据集 D D D的分布来获得此估计值的误差线 - 贝叶斯观点:
a. 只有一个数据集 D D D(实际观察到的数据集)
b.参数的不确定性通过 w w w上的概率分布表示
最大似然(maximum likelihood)
广泛使用的频率估计器(frequentist estimator)是最大似然(maximum likelihood),其中将 w w w设置为使似然函数 p ( D ∣ w ) p(D|w) p(D∣w)能够达到最大化的值。在机器学习文献中,似然函数的负对数称为误差函数,因为负对数是一个单调递减函数,所以能够使得将似然最大化等于将误差最小化。
误差线的确定
确定频率误差线(frequentist error bars)的一种方法是自举bootstrap(Efron, 1979; Hastie et al., 2001),其按如下方式创建多个数据集:
- 原始数据集由N个数据点组成: X = x 1 , . . . . , x N X = {x_1,....,x_N} X=x1,....,xN
- 从 X X X中随机选取N个点,来创建一个新的数据集 X B X_B XB
- X X X中的某些点将被复制到 X B X_B XB中; X X X中的有些点可能不在 X B X_B XB中
- 重复2,3步L次,可以产生L个数据集,每个数据集的大小为N,并且每个数据集都是从原始数据集 X X X采样获得
- 参数估计值的统计准确性:通过查看不同自举bootstrap数据集之间的预测差异来评估
贝叶斯优点
自然地会包含先验知识。 举例(最大似然 maximum likelihood):
- 已知:将一枚硬币扔三次,每次都是人头朝下
- 推断:人头落地概率的经典最大似然估计得出为 1
- 结果:未来所有对于该硬币的抛掷都会导致人头落地
相比之下,具有任何合理先验的贝叶斯方法将很大程度地减少极端的结论
贝叶斯缺点
有关于频率派和贝叶斯派的相对优点的争论和辩论有很多,但是对于独特的频率派观点和贝叶斯观点都没有得到帮助。对贝叶斯方法的普遍批评存在下述几个:
- 先验分布的选择通常是通过数学上的便利性,而不是通过先验信念的反映进行选择
- 通过依赖于先验选择而得出的主观结论
- 非信息先验的一种动机:减少对先验的依赖。但是这在比较不同模型时会带来困难
- 基于错误的先验选择,贝叶斯会给出高可信度的不良结果
- 频率派的评估方法可为4出现的问题提供一定的保护,例如交叉验证(cross-validation)在例如模型比较之类的领域中仍然有用
ps:PRML这本书着重强调了贝叶斯的观点,反映了过去几年中贝叶斯方法在实践中的重要性的巨大增长,同时还根据需要讨论了有用的频率论者概念。
尽管贝叶斯框架起源于18世纪,但是贝叶斯方法的实际应用在很长一段时间内一直受到实施完整贝叶斯程序的困难的严重限制,特别是需要对贝叶斯方法在整个参数空间上进行边际化(求和或积分)这一步是在进行预测或者比对不同模型时是必须的。
采样方法发展
- 采样方法的发展,例如马尔可夫链蒙特卡洛(将在第11章讨论),以及计算机速度和存储容量的显着提高,为在众多问题领域中实际使用贝叶斯技术打开了大门。
- 蒙特卡洛方法非常灵活,可以应用于多种模型。 但是,它们计算量大,并且主要用于解决小规模的问题。
- 最近,已经开发出了高效的、确定的近似方案,例如变分贝叶斯和期望传播(将在第10章讨论)。
这些提供了采样方法的补充替代方法,并允许将贝叶斯技术用于大规模应用(Blei等,2003)
总结
- 不确定事件:无法通过重复多次来对其概率下定义->尊重常识
- 贝叶斯概率((Bayesian) probabilities):在每种情况下,所得到的数值量均可以根据概率规则进行精确的展示
- 评估参数 w w w的不确定性:将先验概率转化为后验概率: p ( w ∣ D ) = p ( D ∣ w ) P ( w ) P ( D ) p(w|D)=\frac {p(D|w)P(w)} {P(D)} p(w∣D)=P(D)p(D∣w)P(w)
- 似然函数(likelihood function):参数矢量
w
w
w的函数
a. 频率派: w w w固定参数;通过某种形式的估计量;估计值误差线->误差线确定->自举bootstrap
b.贝叶斯: 只有一个数据集 D D D; w w w概率分布->评估参数的不确定性 - 最大似然(maximum likelihood):似然函数的负对数称为误差函数
- 贝叶斯优点:合理先验->减少极端结论
- 贝叶斯缺点:太依赖先验条件;错误的先验选择->高可信度的不良结果
- 频率派优点:交叉验证(cross-validation)防止出现高可信度的不良结果
参考文献:
Pattern Recognition and Machine Learning
Published by Springer | January 2006
https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/