二十.朴素贝叶斯原理和sklearn实现

最新推荐文章于 2023-03-18 09:58:59 发布

stackooooover

最新推荐文章于 2023-03-18 09:58:59 发布

阅读量396

点赞数

分类专栏：机器学习实战机器学习理论基础

本文链接：https://blog.csdn.net/weixin_36128607/article/details/118516310

版权

机器学习理论基础同时被 2 个专栏收录

39 篇文章 8 订阅

订阅专栏

机器学习实战

31 篇文章 4 订阅

订阅专栏

1.判别模型和生成模型

判别模型：判别模型直接学习自变量 $x$ 和因变量 $y$ 之间的关系，这种关系可能是函数 $y = f (x)$ ，也可能是条件概率 $P (y ∣ x)$ 。
生成模型：生成模型需要先求出自变量和因变量的联合概率分布 $P (x, y)$ ，再通过联合概率分布求出条件概率 $P(y|x)=\frac{P(x,y)}{P(x)}$ 。朴素贝叶斯属于生成模型。

2.贝叶斯公式

随机变量 $X, Y$ 相互独立，它们的联合概率分布为：
$P (X, Y) = P (X) P (Y)$
条件概率为：
$P(Y|X)=\frac{P(X,Y)}{P(X)}=\frac{P(X|Y)P(X)}{P(X)}$
全概率公式为：
$P(X)=\sum_{k}P(X|Y_{k})P(Y_{k}),\sum_{k}P(Y_{k})=1$
综上，可以推导出贝叶斯公式：
$P(Y_{k}|X)=\frac{P(X|Y_{k})P(Y_{k})}{\sum_{k}P(X|Y_{k})P(Y_{k})}$

3.朴素贝叶斯模型

$m$ 个样本，每个样本有 $n$ 个特征和一个标签，一共有共有 $C$ 种类别。

(1)先验概率

类别 $C_{k}$ 出现的频率 $P(Y=C_{k})$ 称为先验分布，可以从数据中求出：
$P(Y=C_{k})=\frac{|C_{k}|}{m}$
$C_{k}|$ 为类别为 $C_{k}$ 的样本数量。

(2)条件概率

当样本的类别为 $C_{k}$ 时，它的各项维度是确定数值的概率为：
$P(X=x|Y=C_{k})=P(X_{1}=x_{1},X_{2}=x_{2},...,X_{n}=x_{n}|Y=C_{k})$
上式求解的要求高，求解过程复杂。因此，在朴素贝叶斯中，假设条件相互独立，则条件概率变为：
$P(X=x|Y=C_{k})=P(X_{1}=x_{1}|Y=C_{k})P(X_{2}=x_{2}|Y=C_{k})...P(X_{n}=x_{n}|Y=C_{k})$

(3)联合概率分布

可以通过先验分布和条件概率求出联合概率分布：
$P(X=x,Y=C_{k})=P(X=x|Y=C_{k})P(Y=C_{k})=P(X_{1}=x_{1}|Y=C_{k})P(X_{2}=x_{2}|Y=C_{k})...P(X_{n}=x_{n}|Y=C_{k})P(Y=C_{k})$

(4)后验概率

当给定一个新样本 $X^{new}$ 时，只需要求出后验概率 $P(Y=C_{k}|X=X^{new})$ 最大的即为新样本的类别。

4.目标函数推导

样本 $X=X^{test}$ ，在此条件下，求样本的标签 $Y^{test}$ 概率最大的类别：
$\begin{aligned} C_{result}&=\arg\max_{C_{k}} P(Y=C_{k}|X=X^{test}) \\ &= \arg\max_{C_{k}}\frac{P(Y=C_{k},X=X^{test})}{P(X=X^{test})}\\ &=\arg\max_{C_{k}}\frac{P(X=X^{test}|Y=C_{k})P(Y=C_{k})}{P(X=X^{test})} \end{aligned}$
由于分母 $P(X=X^{test})$ 是一个固定的常数，省略后最大化过程变为：
$C_{result}=\arg\max_{C_{k}} P(X=X^{test}|Y=C_{k})P(Y=C_{k})$
朴素贝叶斯假设变量之间条件独立，上式可进一步简化为：
$C_{result}=\arg\max_{C_{k}} P(Y=C_{k})\prod_{i=1}^{m}P(X_{i}=X_{i}^{test}|Y=C_{k})$

5.算法流程

(1)求先验概率

先验概率 $P(Y=C_{k})$ ，即类别 $C_{k}$ 出现的概率：
$P(Y=C_{k})=\frac{m_{k}+\lambda}{m+\lambda k}$
其中， $m_{k}$ 为类别 $C_{k}$ 出现的次数， $m$ 为总样本数， $k$ 为总类别数， $\lambda$ 为0或者1，它的作用是防止结果为0。

(2)选择条件概率

选择条件概率 $P(X_{j}=X_{j}^{test}|Y=C_{k})$ 的计算公式。
a.当特征 $X_{j}$ 为离散值时：
$P(X_{j}=X_{j}^{test}|Y=C_{k})=\frac{m_{kj}^{test}+\lambda}{m_{k}+O_{j}\lambda}$
其中， $m_{kj}^{test}$ 为类别为 $C_{k}$ 的样本中，第 $j$ 个维度的特征值等于 $X_{j}^{test}$ 的样本数， $O_{j}$ 为第 $j$ 个特征的取值个数。
b.当特征 $X_{j}$ 为连续值时：
$P(X_{j}=X_{j}^{test}|Y=C_{k})=\frac{1}{\sqrt{2\sigma_{k}^{2}}}\exp-\frac{(X_{j}-\mu _{k})^{2}}{\sigma_{k}^{2}}$
其中， $\mu _{k}$ 为类别为 $C_{k}$ 的所有样本的均值， $\sigma_{k}$ 为方差。

(3)选择类别

求要本概率最大的类别作为样本的类别：
$C_{result}=\arg\max_{C_{k}} P(Y=C_{k})\prod_{i=1}^{n}P(X_{i}=X_{i}^{test}|Y=C_{k})$

6.sklearn实现朴素贝叶斯算法

(1)数据预处理

导入数据，划分数据，标准化数据

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
iris = load_iris()
x,y=iris.data,iris.target
x_train,x_test,y_train,y_test = train_test_split(x,y)
std = StandardScaler()
x_train=std.fit_transform(x_train)
x_test = std.fit_transform(x_test)
print(x_train.shape,x_test.shape)

输出:

(112, 4) (38, 4)

(2)训练和预测

使用先验分布为高斯分布的贝叶斯分类器：

from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
model=GaussianNB()
model.fit(x_train,y_train)
y_pred = model.predict(x_test)
print(accuracy_score(y_pred,y_test))

输出：

0.9210526315789473

stackooooover

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
二十.朴素贝叶斯原理和sklearn实现

目录1.判别模型和生成模型2.贝叶斯公式3.朴素贝叶斯模型(1)先验概率(2)条件概率(3)联合概率分布(4)后验概率4.目标函数推导5.算法流程(1)先验概率(2)条件概率1.判别模型和生成模型判别模型：判别模型直接学习自变量xxx和因变量yyy之间的关系，这种关系可能是函数y=f(x)y=f(x)y=f(x)，也可能是条件概率P(y∣x)P(y|x)P(y∣x)。生成模型：生成模型需要先求出自变量和因变量的联合概率分布P(x,y)P(x,y)P(x,y)，再通过联合概率分布求出条件概率P(y∣x)
复制链接

扫一扫