第6章 贝叶斯学习
6.1 概述
- 贝叶斯推理对机器学习十分重要,它
- 为衡量多个假设的置信度提供了定量的方法,
- 为直接操作概率的学习算法提供了基础,
- 也为其他算法的分析提供了理论框架。
- 贝叶斯学习方法的特性包括:
- 观察到的每个训练样例可以增量地降低或升高某假设的估计概率;
- 先验知识可以和观察数据一起决定假设的最终概率;
- 允许假设做出不确定的预测;
- 新的实例分类可由多个假设以概率加权的形式一起做出预测;
- 即使在贝叶斯方法计算复杂度较高时,仍可以作为一个最优的决策的标准来衡量其他方法。
- 实践中运用贝叶斯方法的难点在于:
- 需要概率的初始知识;
- 一般情况下确定贝叶斯最优假设的计算代价比较大(同候选假设的数量成线性关系)。
6.2 贝叶斯法则
- 先验概率(Prior Probaility)
P(h) 反映了我们所拥有的关于 h 是一个正确假设的机会的背景知识。若没有这一先验知识可以简单地将所有候选假设赋予相同的先验概率。
P(D) 反映了我们将要观察的训练数据 D 的先验概率,即在没有确定某一假设成立时D 的概率。 - P(D│h) 代表假设 h 成立的情况下观察到数据
D 的概率。 - 后验概率(Posterior Probability)
P(h|D) 反映了观察到数据 D 后,假设h 成立的置信度。 - 贝叶斯公式:
P(h|D)=P(D|h)P(h)P(D)
6.3 极大后验假设和极大似然假设
- 极大后验(Maximum A Posteriori , MAP)假设:学习器考虑候选假设集合 H 并在其中寻找给定数据
D 时可能性最大的假设 h∈H (或者存在多个这样的假设时选择其中之一)。这种具有最大可能性的假设成为极大后验假设。更精确地说,当下式成立时,称 hMAP 为MAP假设:
hMAP≡argmaxh∈HP(h|D)=argmaxh∈HP(D|h)P(h)P(D)=argmaxh∈HP(D|h)P(h) - 极大似然(Maximum Likehood,ML)假设:在某些情况下,可假定中的每个假设有相同的先验概率(即对 H 中任意
hi 和 hj , P(hi)=P(hj) ) ,此时,只需考虑 P(D│h) 。 P(D│h) 常被称为给定 h 时数据D 的似然度,使 P(D│h) 最大的假设被称为极大似然假设 hML :
hML≡argmaxh∈HP(D|h) 若所有假设有相等的先验概率,则ML假设等同于MAP假设。
6.4 贝叶斯法则和概念学习
6.4.1 Brute-Force贝叶斯概念学习
Brute-Force MAP学习算法
对H中每个假设 h ,计算后验概率:
P(h|D)=P(D|h)P(h)P(D)
输出有最高后验概率的假设 hMAP :
hMAP=argmaxh∈HP(h|D)
若满足:
- 训练数据 D 是无噪声的;
- 目标概念
c 包含在假设空间 H 中; - 没有任何理由认为某假设比其他假设的可能性大。
则与
6.4.2 MAP假设和一致学习器
一致学习器:若学习算法输出的假设在训练样例上有零错误率。
如果假设空间 H 上有均匀的先验概率(即对
贝叶斯框架提出一种刻画学习算法行为的方法,即使该学习算法不进行概率操作。通过确定算法输出最优假设时使用的概率分布
6.5 极大似然与最小误差平方假设
学习器 L 工作在实例空间