Chapter 6 贝叶斯学习

最新推荐文章于 2024-04-05 11:24:06 发布

NeutronT

最新推荐文章于 2024-04-05 11:24:06 发布

阅读量502

点赞数 1

分类专栏：《MachineLearning》学习笔记

本文链接：https://blog.csdn.net/NeutronT/article/details/78069363

版权

本文深入探讨了贝叶斯学习，介绍了贝叶斯法则、极大后验假设与极大似然假设，以及贝叶斯最优分类器和朴素贝叶斯分类器的概念。详细阐述了条件独立性、贝叶斯信念网和EM算法，展示了贝叶斯方法在机器学习中的应用和挑战。

摘要由CSDN通过智能技术生成

第6章贝叶斯学习

6.1 概述

贝叶斯推理对机器学习十分重要，它
- 为衡量多个假设的置信度提供了定量的方法，
- 为直接操作概率的学习算法提供了基础，
- 也为其他算法的分析提供了理论框架。
贝叶斯学习方法的特性包括：
- 观察到的每个训练样例可以增量地降低或升高某假设的估计概率；
- 先验知识可以和观察数据一起决定假设的最终概率；
- 允许假设做出不确定的预测；
- 新的实例分类可由多个假设以概率加权的形式一起做出预测；
- 即使在贝叶斯方法计算复杂度较高时，仍可以作为一个最优的决策的标准来衡量其他方法。
实践中运用贝叶斯方法的难点在于：
- 需要概率的初始知识；
- 一般情况下确定贝叶斯最优假设的计算代价比较大（同候选假设的数量成线性关系）。

6.2 贝叶斯法则

先验概率（Prior Probaility）
$P(h)$ 反映了我们所拥有的关于 $h$ 是一个正确假设的机会的背景知识。若没有这一先验知识可以简单地将所有候选假设赋予相同的先验概率。
$P(D)$ 反映了我们将要观察的训练数据 $D$ 的先验概率，即在没有确定某一假设成立时 $D$ 的概率。
$P(D│h)$ 代表假设 $h$ 成立的情况下观察到数据 $D$ 的概率。
后验概率（Posterior Probability）
$P(h|D)$ 反映了观察到数据 $D$ 后，假设 $h$ 成立的置信度。
贝叶斯公式：
$P (h | D) = P ( D | h ) P ( h ) P ( D )$ $P(h|D)=\frac{P(D|h)P(h)}{P(D)}$

6.3 极大后验假设和极大似然假设

极大后验（Maximum A Posteriori , MAP）假设：学习器考虑候选假设集合 $H$ 并在其中寻找给定数据 $D$ 时可能性最大的假设 $h \in H$ （或者存在多个这样的假设时选择其中之一）。这种具有最大可能性的假设成为极大后验假设。更精确地说，当下式成立时，称 $h_{MAP}$ 为MAP假设：
$h M A P \equiv arg max h \in H P (h | D) = arg max h \in H P ( D | h ) P ( h ) P ( D ) = arg max h \in H P (D | h) P (h)$ $\begin{aligned} h_{MAP} &\equiv \mathop{\arg\max}_{h \in H} P(h|D) \\ &= \mathop{\arg\max}_{h \in H} \frac{P(D|h)P(h)}{P(D)}=\mathop{\arg\max}_{h \in H}P(D|h)P(h) \end{aligned}$
极大似然（Maximum Likehood,ML）假设：在某些情况下，可假定中的每个假设有相同的先验概率（即对 $H$ 中任意 $h_i$ 和 $h_j$ ， $P(h_i)=P(h_j)$ ），此时,只需考虑 $P(D│h)$ 。 $P(D│h)$ 常被称为给定 $h$ 时数据 $D$ 的似然度，使 $P(D│h)$ 最大的假设被称为极大似然假设 $h_{ML}$ ：
$h M L \equiv arg max h \in H P (D | h)$ $h_{ML} \equiv \mathop{\arg\max}_{h \in H}P(D|h)$
若所有假设有相等的先验概率，则ML假设等同于MAP假设。

6.4 贝叶斯法则和概念学习

6.4.1 Brute-Force贝叶斯概念学习

Brute-Force MAP学习算法
对H中每个假设 $h$ ，计算后验概率：

$P (h | D) = P ( D | h ) P ( h ) P ( D )$ $P(h|D)=\frac{P(D|h)P(h)}{P(D)}$
输出有最高后验概率的假设 $h_{MAP}$ ：

$h M A P = arg max h \in H P (h | D)$ $h_{MAP} = \mathop{\arg\max}_{h \in H} P(h|D)$

若满足：

训练数据 $D$ 是无噪声的；
目标概念 $c$ 包含在假设空间 $H$ 中；
没有任何理由认为某假设比其他假设的可能性大。

则与 $D$ 一致的每个假设都是MAP假设。

6.4.2 MAP假设和一致学习器

一致学习器：若学习算法输出的假设在训练样例上有零错误率。

如果假设空间 $H$ 上有均匀的先验概率（即对 $H$ 中任意 $h_i$ 和 $h_j$ ， $P(h_i)=P(h_j)$ ），且训练数据是确定性的和无噪声的（即当 $D$ 和 $h$ 一致时， $P(D│h)=1$ ，否则为 $0$ ），任意一致学习器将输出一个MAP假设。

贝叶斯框架提出一种刻画学习算法行为的方法，即使该学习算法不进行概率操作。通过确定算法输出最优假设时使用的概率分布 $P(h)$ 和 P(D│h)$ ，可以刻画出算法具有最优行为时的隐含假定。这与揭示学习器中的归纳偏置在思想上是类似的。

6.5 极大似然与最小误差平方假设

学习器 $L$ 工作在实例空间 $X$ 和假设空间 $H$ 上， $H$ 中的假设为 $X$ 上定义的某种实数值函数。 $L$ 面临的问题是学习一个从 $H$ 中抽取出的未知目标函数 $f:X \to \mathbb{R}$ 。给定 $m$ 个训练样例的集合，每个训练样例是序偶 $\langle x_i,d_i \rangle$ ,其中 $d_i=f(x_i)+e_i$ ，若随机噪声 $e_i$ 是独立抽取的，且服从零均值的正态分布，那么学习器使输出的假设预测和训练数据之间的误差平方最小化，它将输出一个极大似然假设。