朴素贝叶斯法_naive_Bayes

沉住气CD

已于 2024-01-02 11:53:12 修改

阅读量932

点赞数 16

分类专栏：机器学习常用算法文章标签：机器学习算法人工智能数据挖掘

于 2023-12-24 14:11:08 首次发布

本文链接：https://blog.csdn.net/pydarren/article/details/135181382

版权

机器学习常用算法专栏收录该内容

11 篇文章 3 订阅

订阅专栏

朴素贝叶斯法（naive Bayes）是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。

基本方法：

设输入空间 $X\subseteq R^n$ 为 $n$ 维向量的集合，输出空间为类标记集合 $Y=\{c_1,c_2,...,c_k\}$ 。输入为特征向量 $x\in X$ ，输出为类标记 $y\in Y$ 。 $X$ 是定义在输入空间 $X$ 上的随机向量， $Y$ 是定义在输出空间 $Y$ 上的随机变量。 $P (X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 由 $P (X, Y)$ 独立同分布产生。

朴素贝叶斯算法就是通过训练数据集学习联合概率分布 $P (X, Y)$ 。

具体地，学习以下先验概率分布及条件概率分布。
先验概率分布： $P(Y=C_k), \quad k=1,2,...,K$ ；
条件概率分布： $P(X=x|Y=C_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=C_k),\quad k=1,2,...,K$ 。

由于条件概率分布 $P(X=x|Y=C_k)$ 由指数级数量的参数，其估计实际是不可能的。事实上，假设特征 $X^{(j)}$ 可能的取值有 $S_j$ 个， $j = 1, 2, ..., n$ ， $Y$ 可能取值有 $K$ 个，那么参数个数为 $K\prod_{j=1}^{n}S_j$ 个。

于是朴素贝叶斯算法对条件概率分布作出了条件独立性的假设。这是一个非常强的假设，等于是说用于分类的特征在类确定的条件下都是条件独立的，具体地，条件独立性假设是
$P(X=x|Y=C_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=C_k)$
$\qquad \quad =\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=C_k)$

朴素贝叶斯算法在进行分类时，对给定的输入 $x$ ，通过学习到的模型计算后验概率分布 $P(Y=C_k|X=x)$ ，然后将后验概率最大的类作为 $x$ 的输出。后验概率计算根据贝叶斯定理进行：
$P(Y=C_k|X=x)=\frac{P(X=x|Y=C_k)P(Y=C_k)}{\sum_{k}P(X=x|Y=C_k)P(Y=C_k)}$
$\qquad \qquad \qquad \qquad=\frac{P(Y=C_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=C_k)}{\sum_{k}P(Y=C_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=C_k)}$

于是，朴素贝叶斯分类器可表示为
$y=f(x)=arg\max_{C_k}\frac{P(Y=C_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=C_k)}{\sum_{k}P(Y=C_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=C_k)}$

由于分母对所有的类都是相同的，所以
$y=f(x)=arg\max_{C_k}P(Y=C_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=C_k)$

算法：
输入：训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T$ ， $x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征， $x_i^{(j)} \in \{a_{j1},a_{j2},...,a_{jS_j}\}$ ， $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值， $j = 1, 2, ..., n$ ， $l=1,2,...,S_j$ ， $y_i \in \{C_1,C_2,...,C_k\}$ ；实例 $x$ 。
输出：实例 $x$ 的分类。

计算先验概率及条件概率
$P(Y=C_k)=\frac{\sum_{i=1}^{N}I(y_i=C_k)}{N}, \qquad k=1,2,...,k$
$P(X^{(j)}=a_{jl}|Y=C_k)=\frac{\sum_{i=1}^{N}I(x^{(j)}=a_{jl},y_i=C_k)}{\sum_{i=1}^{N}I(y_i=C_k)}$
$\qquad j=1,2,...,n; \quad l=1,2,...,S_j; \quad k=1,2,...,K$
对于给定实例 $x={(x^{(1)},x^{(2)},...,x^{(n)})}^T$ ，计算(这里用到了特征条件独立假设)
$P(Y=C_k)\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=C_k),\qquad k=1,2,...,K$
确定实例 $x$ 的分类
$y=arg\max_{C_k}P(Y=C_k)\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=C_k)$

沉住气CD

关注

16
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯法_naive_Bayes

于是朴素贝叶斯算法对条件概率分布作出了条件独立性的假设。这是一个非常强的假设，等于是说用于分类的特征在类确定的条件下都是条件独立的，具体地，条件独立性假设是。对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入。由指数级数量的参数，其估计实际是不可能的。朴素贝叶斯算法在进行分类时，对给定的输入。，利用贝叶斯定理求出后验概率最大的输出。维向量的集合，输出空间为类标记集合。，通过学习到的模型计算后验概率分布。由于分母对所有的类都是相同的，所以。
复制链接

扫一扫