Mitchell机器学习-贝叶斯学习

最新推荐文章于 2023-09-26 21:52:36 发布

Quebradawill

最新推荐文章于 2023-09-26 21:52:36 发布

阅读量3k

点赞数 1

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/qiudw/article/details/8710508

版权

Machine Learning 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

1. 极大后验假设中包含了假设的先验概率，若没有先验信息，则极大后验假设等同于极大似然假设。比较极大似然假设：

2. 作为搜索的概念学习

在目标函数给出的可能的假设空间中搜索能最好拟合训练样例的假设
所搜索的假设空间是有限的
训练数据是无噪声的，学习到的假设应当与每个样例一致
目标概念应当包含在中
没有其他先验知识
- 没有其他先验知识指没有任何理由认为某假设比其他假设的可能性大

3. Brute-Force贝叶斯概念学习

Brute-Force MAP学习算法
- 对于中每个假设，计算后验概率

$P(h|D) = \frac{P(D|h) P(h)}{P(D)}$

- 输出有最高后验概率的假设

分析
- 每个假设的先验概率： $P(h) = 1/ |H|$ （无先验知识）
- 若假设与不一致，则 $P(D|h) = 0$ ，从而 $P(h|D) = 0$
  - 因为若不一致，则在该假设下不可能出现；若一致，则应该出现。
  - 若假设与完全一致， $P(D|h) = 1$ ，由全概率公式

$\begin{align*} P(D) = \sum_{h_i \in H} P(D|h_i) P(h_i) = \sum_{h_i \in VS_{H,D}} 1 \times \frac{1}{|H|} + \sum_{h_i \in VS_{H,D}} 0 \times \frac{1}{|H|} = \sum_{h_i \in VS_{H,D}} 1 \times \frac{1}{|H|} = \frac{|VS_{H,D}|}{|H|} \end{align*}$

$P(h|D) = (1 \times 1 / |H|)/P(D) = 1/|VS_{H,D}|$

- - 假设空间中的任一假设经过对训练样本的学习后的后验概率为：

$P(h|D) = \left\{ \begin{array}{ll} \frac{1}{|VS_{H,D}|} & \textrm{if} \ h \ \textrm{is consistent with} \ D \\ 0 & \textrm{otherwise} \\ \end{array} \right.$

- 结论：上面的分析说明，在假设空间中每个与训练样本一致的假设的后验概率均为 $1/|VS_{H,D}|$ ，因为它们都能正确识别样例，没有好坏之分，均为MAP假设，正是这些假设构成了前面所说的变型空间；而每个与样本不一致的假设的后验概率均为0

4. 贝叶斯最优分类器

对新实例的分类是通过对所有假设的预测加权求和来决定的。
贝叶斯最优分类器将新实例分类为

$\arg \max_{v_j \in V} \sum_{h_i \in H} P(v_j|h_i) P(h_i|D)$

在相同的假设空间和相同的先验概率下，该方法使新实例被正确分类的可能性达到最大。
由于采用中的多个假设的线性组合，其结果可能不同于原假设空间中任一假设的预测结果。

5. Gibbs算法

由于贝叶斯最优分类器对假设空间中每个假设计算完后验概率后，还有合并每个假设的预测来完成分类，计算量太大。
Gibbs算法
- 对每个要分类的实例
  - 按照上的后验概率分布，从中随机选择一个假设
  - 用来预测新实例的分类

6. 朴素贝叶斯分类器（Naive Bayes Classifier）

$v_{MAP} = \arg \max_{v_j \in V} P(v_j | a_1, a_2, \cdots, a_n) = \arg \max_{v_j \in V} P( a_1, a_2, \cdots, a_n |v_j) P(v_j)$

朴素贝叶斯方法假定各属性值之间相互条件独立，故有

$v_{NB} = \arg \max_{v_j \in V} P(v_j) \prod_i P(a_i|v_j)$

7. 贝叶斯信念网络

网络结构已知、变量可以从训练样例完全获得，则通过简单的统计计算可得到每个节点相关的条件概率表
网络结构已知、但部分变量值缺失，则可通过梯度上升法训练贝叶斯网络
- $w_{ijk}$ 为父节点取值 $u_{ik}$ 时，网络变量的值为 $y_{ij}$ 的条件概率
- 在当前网络参数假设下，对于每一个 $w_{ijk}$ 有

$\frac{\partial \ln P(D|h)}{\partial w_{ijk}} = \sum_{d \in D} \frac{P(Y_i = y_{ij}, U_i = u_{ik}|d)}{w_{ijk}}$

- 更新 $w_{ijk}$

$w_{ijk} \leftarrow w_{ijk} + \eta \sum_{d \in D} \frac{P(Y_i = y_{ij}, U_i = u_{ik}|d)}{w_{ijk}}$

$w_{ijk} \leftarrow \frac{w_{ijk}}{\sum_j w_{ijk}}$

- - 归一化保证各条件概率之和为1

8. EM算法

问题
- 数据：
- 隐含变量（残缺数据）： $Z = \{ z_1, \cdots, z_m\}$
- 假设：模型参数 $\theta$ 的估计值
完整的数据：
目标：寻找使对数似然 $ln P(Y|h')$ 最大的

比较：

EM算法
- 步骤：用当前假设和数据估计的概率分布
- 步骤：根据上述计算求最大后验假设，用其代替，即

Quebradawill

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mitchell机器学习-贝叶斯学习

1. 极大后验假设中包含了假设的先验概率，若没有先验信息，则极大后验假设等同于极大似然假设。比较极大似然假设：2. 作为搜索的概念学习在目标函数给出的可能的假设空间中搜索能最好拟合训练样例的假设所搜索的假设空间是有限的训练数据是无噪声的，学习到的假设应当与每个样例一致目标概念应当包含在中没有其他先验知识没有其他先验知识指没有任何理由认为某假设比其他假
复制链接

扫一扫

专栏目录