机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）

最新推荐文章于 2023-05-30 09:01:14 发布

绝对是谨慎提交的昵称

最新推荐文章于 2023-05-30 09:01:14 发布

阅读量1.2k

点赞数 5

分类专栏：机器学习·所思所得文章标签：机器学习 python 朴素贝叶斯算法监督学习

本文链接：https://blog.csdn.net/sunsimiaofromsh/article/details/104921413

版权

朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法（朴素贝叶斯法与贝叶斯估计是不同的概念）。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对个给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。朴素贝叶斯方法实现简单，学习与预测的效率都很高，是一种常用的方法¹。

假如对于机器学习是用来干什么的也不是很清楚的话，可以先阅读一下周志华老师的西瓜书（清华大学出版社）或者李航老师的统计学习方法（清华大学出版社）。可以粗糙地理解为，机器学习是通过一些已知结果的样本来训练一个训练器，再将这个训练器运用到未知结果的样本上，用以推测其结果。我们在机器学习中通常要做的就是预测问题、参数优化问题和模型比较问题。

还有阿里云大学上的免费公开课：https://edu.aliyun.com/course/838?spm=5176.13345299.1392555.36.458ef153vkLC1h

朴素贝叶斯分类器

基本原理方法

模型目标

设输入空间（又称样本空间、属性空间） $\mathcal{X} \subseteq \mathbb{R}^n$ 为 $n$ 维向量的集合，输出空间为类别标记的集合 $\mathcal{Y}=\{C_1,C_2,\cdots,C_K\}$ 。输入为特征向量 $x\in \mathcal{X}$ ，输出为类标记 $y\in \mathcal{Y}$ 。 $X$ 是定义在输入空间 $\mathcal{X}$ 上的随机变量， $Y$ 是定义在输出空间 $\mathcal{Y}$ 上的随机变量。

首先，我们需要确定一个损失函数，将最小化该损失函数的期望值（即，最小化期望风险函数）作为建模目标：期望风险越小，说明模型预测结果和真实结果越相近。不妨考虑 0-1 损失函数作为损失函数的例子：

$\begin{cases} 0, & f(X)= Y, \\ 1, & f(X) \neq Y. \end{cases}$

这里 $f (X)$ 为预测值， $Y$ 为真实类别值。这个损失函数意味着，当样本的模型预测结果和真实类别一致时，损失函数值为0；样本的模型预测结果和真实类别不一致时，损失函数值为1。

其次，期望风险/平均损失(Expected Prediction Error,EPE) 可以写作：

$E [L (Y, f (X))]$

其中，

$\begin{cases} 0, & f(X)= Y, \\ 1, & f(X) \neq Y. \end{cases}$

根据重期望公式，EPE可以分解为：

$E[L(Y,f(X))]=E_X[E_{Y|X}[L(Y,f(X))]]$

最后，我们寻找的朴素贝叶斯训练器 $f(\cdot)$ 要能够最小化EPE。为了最小化 EPE，我们找到了一个它的充分条件：在 $X = x$ 给定情况下，让 $E_{Y|X=x}[L(Y,f(X))]$ 都达到最小。能达到这个条件，就足以达到最小化 EPE 的目的。该充分条件可以表达为：

$\begin{aligned} & argmin\ E_{Y|X=x}[L(Y,f(X))] \\ =\ & argmin\ 0 \cdot P(L(Y,f(X))= 0|X=x) + 1 \cdot P(L(Y,f(X))= 1|X=x) \\ =\ & argmin\ 0 \cdot P(f(X)= Y|X=x) + 1 \cdot P(f(X) \neq Y|X=x) \\ =\ & argmin\ 1-P(f(X) = Y|X=x) \\ =\ &argmax P(f(X) = Y|X=x) \end{aligned}$

因此，基于最小化EPE的最优贝叶斯训练器 $f(\cdot)$ 要满足以下条件：

$\begin{aligned} f(x) =\ &argmax P(f(X) = Y|X=x) \\ =\ &argmax_{k \in \{1,2,\cdots,K\}} P(f(X) = C_k|X=x) \end{aligned}$

这是寻找最优训练器的后验概率最大化准则。根据这个准则，得到的训练器 $f(\cdot)$ 对于输入 $X = x$ 得到的训练结果分类为：使条件概率 $P(f(X) = C_k|X=x)$ 取值最大的那个分类 $C_k$ 。比如 $\in \{1,2,\cdots,K\}$ ，若

$P(f(X) = c_i|X=x) > P(f(X) = c_j|X=x)$

则 $X = x$ 通过得到训练器 $f(\cdot)$ 的训练结果分类为第 $i$ 类。

贝叶斯错误 Bayes error

贝叶斯分类器的错误率称为贝叶斯错误。理论上，贝叶斯分类器是基于“后验概率最大化准则”进行分类的最优分类器，因此，贝叶斯错误常用来作为比较其他分类器效果如何的基底。

模型假设

朴素贝叶斯分类器是一系列基于贝叶斯定理的简单概率分类器，输入空间需要满足假设：在特征（又称属性）之间具有很强的相互独立性，需注意这是一种条件独立性（下文会解释）。

概率模型 Probabilistic Model

给定一个分类实例问题，用向量 $X=(x^{(1)},x^{(2)},\cdots,x^{(m)})$ 来表示 $m$ 个属性/特征的输入。利用贝叶斯定理，条件概率 $P(f(X) = C_k|X=x)$ 可以分解为：

$C_k|X=x)=\frac{P(f(X) = C_k)p(X = x|f(X) = C_k)}{P(X = x)}$

简记为

$p(C_k|x)=\frac{p(C_k)p(x|C_k)}{p(x)}=\frac{p(C_k,x)}{p(x)}$

其中的原理即

$posterior（后验分布）=\frac{prior（先验分布） \times likelihood（可能性）}{evidence}$

实际上，我们仅需关注该分数的分子，因为分母“evidence”是给定 $x$ 之后能够确定下来的常数。在贝叶斯定理中 $p(x)=\sum_{k=1}^K p(c_k)p(x|c_k)$

最低0.47元/天解锁文章

绝对是谨慎提交的昵称

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）

朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法（朴素贝叶斯法与贝叶斯估计是不同的概念）。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对个给定的输入 x，利用贝叶斯定理求出后验概率最大的输出 y。朴素贝叶斯方法实现简单，学习与预测的效率都很高，是一种常用的方法。
复制链接

扫一扫