【周志华机器学习】入门（下）

A林玖

已于 2024-07-18 16:48:53 修改

阅读量1.9k

点赞数 45

文章标签：机器学习人工智能

于 2024-07-18 16:47:42 首次发布

本文链接：https://blog.csdn.net/PANSS__/article/details/140512907

版权

6.5 朴素贝叶斯分类器(Naive Bayes Classifier)

七、集成学习

7.1核心思想

7.2 主要类型和方法

7.2.1 Bagging（Bootstrap Aggregating）

六、贝叶斯决策论

6.1 贝叶斯决策论的基础

6.1.1 贝叶斯定理

贝叶斯定理是概率论中的一个基本定理，用来计算在已知一些相关数据的情况下，某事件的概率。

数学表达式为： $P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$

其中

P(A|B)指在事件B发生的前提下事件A发生的条件概率，称为后验概率
P(B|A)指在事件A发生的前提下事件B发生的条件概率，称为似然度
P(A)和P(B)分别指事件A和事件B的先验概率

6.1.2 贝叶斯决策论的定义

贝叶斯决策论的核心思想是基于后验概率来选择使得期望损失最小的决策

实现过程：

1.定义决策空间：确定决策集合 $\mathcal{D}$

2.建立先验概率：对决策问题进行建模，定义每个可能的状态或类别 $\theta$ 的先验概率分布 $P(\theta)$

3.估计条件概率：估计在每个可能的状态 $\theta$ 下观察到数据 x 的条件概率分布 $P(x|\theta)$

4.计算后验概率：利用贝叶斯定理，计算在观察到数据 x 后每个可能状态 $\theta$ 的后验概率分布 $P(\theta|x)$

5.选择最优决策：根据后验概率分布和损失函数 $L(d, \theta)$ ，选择能够最小化期望损失的最优决策 $d^*$ $d^*$ 的数学表达书为： $d^* = \arg \min_{d \in \mathcal{D}} \sum_{\theta} L(d, \theta) P(\theta|x)$

其中 $L(d,\theta)$ 是决策 d 在真实状态 $\theta$ 下的损失

6.2 判别式模型和生成式模型

判别式模型：关注的是通过学习输入数据与输出标签之间的映射关系来进行预测，直接学习类别之间的决策边界或者决策函数。

代表：

决策树
BP神经网络
SVM

生成式模型：关注的是学习数据的联合概率分布，能够推断出样本的特征，并生成新的样本

代表：

贝叶斯分类器

6.3 频率主义和贝叶斯主义

6.3.1 定义比较

频率主义：频率主义将模型的参数视为固定且真实存在的，通过多次实验来逼近这个固定值

贝叶斯主义：贝叶斯主义将所有的参数都被视为随机变量，每个值都有可能是真实模型使用的值，只是概率不同而已。

6.3.2 模型构建比较

频率主义：在构建模型时，频率主义主要关注如何通过数据样本来研究和估计总体参数。它强调数据的客观性和可重复性，使用点估计和区间估计等方法来推断总体参数的值和范围。

贝叶斯主义：贝叶斯主义则将观察数据和先验知识结合起来，通过贝叶斯公式计算后验概率，从而推断未知参数的分布和置信区间。它允许将个体的信仰和经验融入统计模型中，使得模型更加灵活和全面。

6.4 极大似然估计(MLE）

极大似然估计是一种通过优化似然函数来估计模型参数的方法。

在贝叶斯决策论中，通常我们希望通过已知的数据集 $D = { (x_i, y_i) }_{i=1}^N$ 来估计模型的参数。

实现过程：

1.选择概率模型

2.定义似然函数：对于给定模型的参数 $\theta$ ，似然函数 $L(\theta | D)$ 表示在参数 $\theta$ 下观察到数据集 D 的概率密度或概率质量函数。对于独立同分布的数据 D ，似然函数可以写成 $L(\theta | D) = \prod_{i=1}^N P(y_i | x_i; \theta)$ ，其中 $P(y_i | x_i; \theta)$ 是模型预测类别 $y_i$ 对应特征 $x_i$ 的概率。

3.最大化似然函数：极大似然估计的目标是找到使似然函数 $L(\theta | D)$ 最大化的参数 $\hat{\theta}{MLE}$ 。通常为了方便计算，会取对数似然函数进行优化，即 $\hat{\theta}{MLE} = \arg \max_\theta \log L(\theta | D)$