人工智能/机器学习基础知识——贝叶斯分类器

ZreviaX

于 2024-04-13 14:00:00 发布

阅读量883

点赞数 7

分类专栏：人工智能/机器学习基础知识文章标签：机器学习人工智能概率论贝叶斯分类器

本文链接：https://blog.csdn.net/WindGrin_/article/details/137688684

版权

人工智能/机器学习基础知识专栏收录该内容

31 篇文章 0 订阅

订阅专栏

本文详细介绍了贝叶斯分类器的工作原理，包括朴素贝叶斯的基本假设、概率计算方法、离散和连续特征的处理，以及最小错误率和最小风险决策的区别。还提到了半朴素贝叶斯和相关扩展方法，如条件互信息在GCN中的应用和贝叶斯网络的构建。

摘要由CSDN通过智能技术生成

贝叶斯分类器

本质上利用先验的样本分布概率来估计新样本的属性

根据对属性间依赖的涉及程度，贝叶斯分类器形成了一个“谱”：朴素贝叶斯分类器不考虑属性间依赖性，贝叶斯网能表示任意属性间的依赖性，二者分别位于“谱”的两端；介于两者之间的则是一系列半朴素贝叶斯分类器，它们基于各种假设和约束来对属性间的部分依赖性进行建模

朴素贝叶斯

Naive Bayes Classifiers

基本假设
- 所有特征之间是相互独立的
贝叶斯公式数学形式

$\mid A)=\frac{P(A \mid B) P(B)}{P(A)}$
即后验概率可由似然概率和先验概率确定

$\text { posterior }=\frac{\text { likelihood } \times \text { prior }}{\text { evidence }}$
算法流程
- 具体到某分类任务种，我们根据一系列特征进行贝叶斯分类
  
  $P\left(w_{i} \mid x\right)=\frac{P\left(x \mid w_{i}\right) P\left(w_{i}\right)}{P(x)}$
  
  $P(x)=P\left(x_{1} x_{2} x_{3} \ldots x_{n}\right)$
  其中， $w_i$ 为类别，表示第 $i$ 类； $x$ 为样本特征，可分为若干子特征 $x_{1} x_{2} x_{3} \ldots x_{n}$
- 我们假设所有特征相互独立，故可得：
  
  $P\left(x_{1} x_{2} x_{3} \ldots x_{n}\right)=P\left(x_{1}\right) P\left(x_{2}\right) P\left(x_{3}\right) \cdots P\left(x_{n}\right)$
- 由全概率公式可得：
  
  $P(x)=\sum_{i} P\left(x \mid w_{i}\right) P\left(w_{i}\right)=\sum_{i} P\left(x_{1} \mid w_{i}\right) P\left(x_{2} \mid w_{i}\right) \cdots P\left(x_{n} \mid w_{i}\right) P\left(w_{i}\right)$
- 对于样本中的离散数值型特征，我们直接使用频率作为概率估计：
  
  $P\left(x \mid w_{i}\right)=\frac{\left|V_{w_{i}, x}\right|}{\left|V_{w_{i}}\right|}$
  其中， $\left|V_{w_{i}, x}\right|$ 表示 $w_i$ 类样本中特征 $x$ 组成的集合的大小（即特征 $x$ 的数量）； $\left|V_{w_{i}}\right|$ 表示 $w_i$ 类样本组成的集合的大小（即 $w_i$ 类样本的数量）
  - Example
    - 某离散特征 $x$ 具有三个离散值 ${0, 1, 2}$ ，对于某个需要分类的样本，我们查看该样本的离散特征值为多少，假设为 $2$ ，那么就在训练集样本中去统计各类别中该离散特征值为 $2$ 的频率，即 $P\left(x \mid w_{i}\right)$
- 对于样本中的连续数值型特征，我们一般假设其服从正态分布，利用训练样本进行参数估计，计算出连续型特征的均值与方差：
  
  $P\left(x \mid w_{i}\right) \sim N\left(\mu_{\omega_{i}, x}, \sigma_{\omega_{i}, x}^{2}\right)$
  其中， $\mu_{\omega_{i}, x}, \sigma_{\omega_{i}, x}^{2}$ 是需要估计的参数
  - 在估计出参数后，我们就可以利用正态分布对连续数值型特征计算概率：
  $P\left(x_{j} \mid w_{i}\right)=\frac{1}{\sqrt{2 \pi} \sigma_{\omega_{i}, j}} \exp \left(-\frac{\left(x_{j}-\mu_{\omega_{i}, j}\right)^{2}}{2 \sigma_{\omega_{i}, j}^{2}}\right)$
- （最小错误率贝叶斯决策）最后，根据测试样本计算出每个类别的后验概率 $P\left(w_{i} \mid x\right)$ ，后验概率最大的即为贝叶斯判别的正确类别
  - 如有需要，还可对计算出的后验概率作归一化。以二分类为例，概率归一化如下所示：
  $\begin{aligned} &P\left(w_{1} \mid x\right)=\frac{P\left(w_{1} \mid x\right)}{P\left(w_{1} \mid x\right)+P\left(w_{2} \mid x\right)} \\ &P\left(w_{2} \mid x\right)=\frac{P\left(w_{2} \mid x\right)}{P\left(w_{1} \mid x\right)+P\left(w_{2} \mid x\right)} \end{aligned}$
- （最小风险贝叶斯决策）引入风险因子 $\lambda_{i j}$ 表示将某一类别 $w_j$ （误）判为类别 $\alpha_i$ 的风险
  
  $\lambda_{i j}=\lambda\left(\alpha_{i} \mid \omega_{j}\right)$
  - 风险损失函数为
  $R\left(\alpha_{i} \mid \mathbf{x}\right)=\sum_{j=1}^{c} \lambda\left(\alpha_{i} \mid \omega_{j}\right) P\left(\omega_{j} \mid \mathbf{x}\right)$
  由于我们需要最小化风险决策，所以选择风险 $R\left(\alpha_{i} \mid \mathbf{x}\right)$ 最小的类别 $\alpha_i$ 作为最后的判决结果
  - 对于一个二分类问题，风险函数可以表示为
  $\begin{aligned} &R\left(\alpha_{1} \mid \mathbf{x}\right)=\lambda_{11} P\left(\omega_{1} \mid \mathbf{x}\right)+\lambda_{12} P\left(\omega_{2} \mid \mathbf{x}\right) \\ &R\left(\alpha_{2} \mid \mathbf{x}\right)=\lambda_{21} P\left(\omega_{1} \mid \mathbf{x}\right)+\lambda_{22} P\left(\omega_{2} \mid \mathbf{x}\right) \end{aligned}$
最小错误率贝叶斯决策 & 最小风险贝叶斯决策
- 最小错误率决策是指将样本分错的概率最小，也就是说分为正确类别的概率最大，所以我们直接计算类别的贝叶斯后验概率，比较大小即可
- 最小风险决策往往是为了某些实际情况而决定的。例如判断细胞正常与异常，由于从人的直观上来看，将正常细胞判断为异常细胞一般比将异常细胞判断为正常细胞的风险小，所以给后验概率加入了风险因子来表达这种实际情况中的风险关系
- 所以，最小错误率决策和最小风险决策的判别结果并不一定相同，因为从风险的角度考虑，将细胞判别为异常细胞有利于尽早发现异常然后处理，有点“宁可错杀一千，也不放过一个”的保守思想，为了规避风险

半朴素贝叶斯

Semi-naive Bayes Classifier

独依赖分类器

One-Dependent Estimator，ODE
- SPODE
  
  Super-Parent ODE
- TAN
  
  Tree Augmented Naive Bayes
  - 条件互信息（Conditional Mutual Information）：可考虑作为GCN构图方案
- AODE
  
  Averaged One-Dependent Estimator