【机器学习系列】之朴素贝叶斯和半朴素贝叶斯

最新推荐文章于 2023-08-22 19:36:54 发布

張張張張

最新推荐文章于 2023-08-22 19:36:54 发布

阅读量2k

点赞数

分类专栏：机器学习文章标签：机器学习朴素贝叶斯半朴素贝叶斯

本文链接：https://blog.csdn.net/qq_41995574/article/details/90379151

版权

作者：張張張張
github地址：https://github.com/zhanghekai
【转载请注明出处，谢谢！】

【机器学习系列】之朴素贝叶斯和半朴素贝叶斯
 【机器学习系列】之朴素贝叶斯代码案例

文章目录

一、朴素贝叶斯概述
二、朴素贝叶斯分类器
三、朴素贝叶斯算法小结
四、半朴素贝叶斯
- 三种选择“父特征”的方法

一、朴素贝叶斯概述

$\quad\;\;$ 贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。贝叶斯的思想可以概括为先验概率+数据=后验概率，一般来说先验概率就是对于数据所在领域的历史经验。

朴素贝叶斯（简称：NB） 法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常用的方法。

朴素贝叶斯相关的统计学知识：

条件独立公式，如果 $X$ 和 $Y$ 相互独立，则有：
$P (X, Y) = P (X) P (Y)$
条件概率公式：
$P(Y|X)=P(X,Y)/P(X)\\P(X|Y)=P(X,Y)/P(Y)$
整理有： $P (Y ∣ X) = P (X ∣ Y) P (Y) / P (X)$
全概率公式：
$P(X)=\sum_{k}P(X|Y=Y_k)P(Y_k)$
其中 $\sum_kP(Y_k)=1$
由上述推出贝叶斯公式：
$P(Y_k|X)=\frac{P(X|Y_k)P(Y_k)}{\sum_kP(X|Y=Y_k)P(Y_k)}$

二、朴素贝叶斯分类器

1. 朴素贝叶斯分类器表达式

朴素贝叶斯分类器 采用了“属性条件独立性假设”，对已知类别，假设所有属性相互独立。

假设有 $N$ 种可能的标记类别，即 $Y=\{c_1,c_2,\cdots ,c_N\}$ , $x$ 为样本点。

基于属性条件独立性假设，条件概率公式 可重写为：
$P(c|x)=\frac{P(c)}{P(x)}\prod_{i=1}^{d}P(x_i|c)\qquad\qquad\qquad(1)$
其中 $d$ 为特征数量， $x_i$ 为 $x$ 在第 $i$ 个特征上的取值。

由于对所有类别来说 $P (X)$ 相同，因此基于式 $(1)$ 的贝叶斯判定准则有
$h_{nb}(x) =\underbrace{arg\;max}_{c\in Y}P(c)\prod_{i=1}^dP(x_i|c)\qquad\qquad\qquad(2)$
这就是朴素贝叶斯分类器的表达式。

总结： 朴素贝叶斯分类器的训练过程就是基于训练集 $D$ 来估计类先验概率 $P (c)$ ，并为每个特征估计条件概率 $P(x_i|c)$ 。

2. 极大似然估计

上述（2）式中 $P (c)$ 及 $P(x_i|c)$ 的求法如下：

令 $D_c$ 表示训练集 $D$ 中第 $c$ 类样本组成的集合，若有充足的独立同分布样本，则可容易地估计出类先验概率：
$P(c)=\frac{|D_c|}{|D|}\qquad\qquad\qquad(3)$

对离散特征而言，令 $D_{c,x_i}$ 表示 $D_c$ 中在第 $i$ 个特征上取值为 $x_i$ 的样本组成的集合，则条件概率 $P(x_i|c)$ 可估计为：
$P(x_i|c)=\frac{|D_{c,x_i}|}{|D_c|}\qquad\qquad\qquad(4)$
对连续特征而言，可考虑概率密度函数，假定

最低0.47元/天解锁文章

張張張張

关注

0
点赞
踩
30

收藏

觉得还不错? 一键收藏
1
评论
【机器学习系列】之朴素贝叶斯和半朴素贝叶斯

作者：張張張張github地址：https://github.com/zhanghekai【转载请注明出处，谢谢！】文章目录一、朴素贝叶斯概述二、朴素贝叶斯分类器1. 朴素贝叶斯分类器表达式2. 极大似然估计3. 例题4. 拉普拉斯修正及例题三、朴素贝叶斯算法小结一、朴素贝叶斯概述&ThickSpace;&ThickSpace;\quad\;\;贝叶斯分类是一类分类算法的...
复制链接

扫一扫

专栏目录