【机器学习西瓜书学习笔记——贝叶斯分类器】

最新推荐文章于 2024-08-04 22:07:39 发布

未来、梦想

最新推荐文章于 2024-08-04 22:07:39 发布

阅读量708

点赞数 4

文章标签：机器学习学习笔记

本文链接：https://blog.csdn.net/m0_51148715/article/details/140912525

版权

第七章贝叶斯分类器

7.1贝叶斯决策论

贝叶斯判定准则

假设有N种可能的类别标记，y={c1,c2,…,cn},x 为样本。基于后验概率将样本 $x$ 分到第 $i$ 类的条件风险为： $R(c_i|x)=\sum_{j=1}^{N} \lambda _{ij}P(c_j|x)$

为最小化总体风险，只需在每个样本上选择那个能使条件风险R（c|x)最小的类别标记，即 $h^*(x)=arg min\space R(c|x)$ 。

$h^*(x)$ 被称为贝叶斯最优分类器，与之对应的总体风险被称为贝叶斯风险。
反映了通过机器学习所能产生的模型精度的理论上限。

两种基本策略

判别式模型

思路：直接建模 $P (c ∣ x)$

代表：决策树、BP神经网络、SVM

生成式模型

思路：先建模联合概率分别 $P (x, c)$ ，再计算 $P (c ∣ x)$

$P(c|x)=\frac{P(x,c)}{P(x)}$

代表：贝叶斯分类器

贝叶斯定理

公式： $P(c|x)=\frac{P(c)P(x|c)}{P(x)}$
其中， $P (c ∣ x)$ 为后验概率，即看到“结果”后修正的概率。
$P (x ∣ c)$ 类标记 $c$ 相对于样本 $X$ 的“类条件概率”，或称为“似然”。
$P (c)$ 为先验概率，样本空间中各类样本所占的比例，可通过各类样本出现的频率估计（大数定律）。
$P (X)$ 为“证据”因子，与类标记无关。

7.2极大似然估计

估计概率的常用策略：先假定其具有某种确定的概率分布形式，再基于训练样本对参数估计。

$P(D_c|\theta_c)=\prod_{x\in D_c} P(x|\theta _c)$

使用对数似然： $LL(\theta_c)=logP(D_c|\theta_c)=\sum_{x\in D_c} logP(x|\theta _c)$

$\theta_c$ 的极大似然估计为：$\hat{\theta_c}=arg\space maxLL(\theta_c) $

7.3朴素贝叶斯分类器

估计后验概率的主要困难：所有属性上的联合概率分布难以从有限训练样本估计获得

基本思路：属性条件独立性假设

$P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P©}{P(x)}\prod_{i=1}^{d}P(x_i|c) $

由于对所有类别来说 $P (x)$ 相同，于是 $h_{nb}(x)=arg\space maxP(c)\prod_{i=1}^{d}P(x_i|c)$

估计先验概率 $P(c):P(c)=\frac{\left |D_c \right | }{\left |D \right | }$

估计类条件概率 $P (x ∣ c)$ :

离散型：令 $D_{c,xi}$ 表示 $D_c$ 中第 $i$ 哥属性上取值为 $x_i$ 的样本组成的集合，则 $P(x_i|c)=\frac{\left |D_{c,xi} \right | }{\left |D_c \right | }$

连续型：假定概率密度函数 $p(x_i|c)\sim N(\mu_{c,i},{\sigma}^2_{c,i})$

$p(x_i|c)=\frac{1}{\sqrt{2\pi} \sigma _{c,i}}exp(-\frac{(x_i-\mu _{c,i})^2}{2\sigma ^2_{c,i}})$

拉普拉斯修正

本质：给频率表中的每个计数加上一个较小的数，保证每一类中每个特征发生概率非零。

7.4半朴素贝叶斯分类器

为什么需要半朴素贝叶斯分类器

后验概率P(c∣x)𝑃(𝑐∣𝑥)计算起来比较困难。
属性条件独立性假设在现实任务中往往很难成立。

基本思想

适当考虑一部分属性之间的相互依赖信息，从而既不需要进行联合概率计算，又不至于彻底忽略比较强的属性依赖关系。

常用策略——独依赖估计

方法：假设每个属性在类别之外最多仅依赖于一个其他属性
$P (c ∣ x) \propto P (c) Π d i = 1 P (x i ∣ c, p ai)$

其中 $p ai$ 为属性 $x i$ 所依赖的属性，称为 $x i$ 的父属性。此时，对每个属性 $x i$ ,若其夫属性 $p ai$ 已知，则可以采用类似
$P^(xi∣c)=\frac{|Dc,xi|+1}{|Dc|+Ni}$
的办法来估计概率值𝑃(𝑥𝑖∣𝑐,𝑝𝑎𝑖)
于是问题就转换为如何确定每个属性的父属性，不同的做法将产生不同的独依赖分类器。

不同的独依赖分类器

NB
SPODE
TAN
AODE

7.5 贝叶斯网

定义

贝叶斯网络，又称信念网络，或有向无环图模型，是一种系统地描述随机变量之间关系的语言。
DAG中节点表示随机变量，边表示变量之间的依赖关系。
条件概率表中的每一个元素对应DAG中唯一的节点，存储此节点对于其所有直接前驱节点的联合条件概率。

目的

旨在解决不确定性推理问题

贝叶斯网络推理

推理过程的实现方法：

采样推理——随机抽样
变量消除推理
精准推理——小规模的贝叶斯网络（枚举法或动态规划）
近似推理——大规模的贝叶斯网络（变分推断或马尔可夫链蒙特卡洛法）

贝叶斯网络学习

参数学习

定义：在已知贝叶斯网络结构的情况下，从数据中学习网络中节点的条件概率分布参数的过程。

实现方式：最大似然估计、贝叶斯估计等方法来实现。

结构学习

定义：从数据中学习贝叶斯网络的结构的过程。

目标：发现最优的网络结构，使得网络能够最好地表示数据之间的依赖关系。

实现方法：搜索算法（如贪婪搜索、爬山算法）、约束优化方法（如评分函数、信息准则）。

7.6 EM算法

定义

从不完全数据或有数据丢失的数据集（存在隐含变量）中求解概率模型参数的最大似然估计方法。

步骤

①期望(E)步，利用当前估计的参数值来计算对数似然的期望值;

②最大化(M)步，寻找能使 EM 算法的收敛性分析 E步产生的似然期望最大化的参数值.

③新得到的参数值重新被用于E步，直至收敛到局部最优解.

未来、梦想

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
【机器学习西瓜书学习笔记——贝叶斯分类器】

贝叶斯网络，又称信念网络，或有向无环图模型，是一种系统地描述随机变量之间关系的语言。DAG中节点表示随机变量，边表示变量之间的依赖关系。条件概率表中的每一个元素对应DAG中唯一的节点，存储此节点对于其所有直接前驱节点的联合条件概率。从不完全数据或有数据丢失的数据集（存在隐含变量）中求解概率模型参数的最大似然估计方法。
复制链接

扫一扫