机器学习--sklearn之朴素贝叶斯分类

最新推荐文章于 2020-11-23 19:55:30 发布

cofisher

最新推荐文章于 2020-11-23 19:55:30 发布

阅读量880

点赞数 2

分类专栏：机器学习 python 文章标签：算法机器学习 python

本文链接：https://blog.csdn.net/qq_36758914/article/details/104308365

版权

python 同时被 2 个专栏收录

58 篇文章 16 订阅

订阅专栏

机器学习

23 篇文章 8 订阅

订阅专栏

问题

这里有八名同学在考试前一天的活动以及他们的考试结果如下表所示：

挂科	喝酒	逛街	学习
1	1	1	0
0	0	0	1
0	1	0	1
1	1	0	0
1	0	1	0
0	0	1	1
0	0	1	0
1	0	0	1

通过以上数据，根据朴素贝叶斯原理，判断某学生在没有喝酒，没有逛街并且学习了的情况下是否会挂科。

算法步骤

朴素贝叶斯分类问题的主要目标就是求解 $P(y=1|x_1,x_2,x_3)$ 以及 $P(y=0|x_1,x_2,x_3)$ ，通过比较两者大小来做出判断。
在这个问题中， $y$ 表示是否挂科， $x_1, x_2, x_3$ 分别表示是否喝酒、逛街、学习。
我们知道，对于条件概率，有以下公式：
$P(A|B)=\frac{P(AB)}{P(B)}$
$P(B|A)=\frac{P(AB)}{P(A)}$
由此可以推得：
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
由此知：
$P(y|x_1,x_2,x_3)=\frac{P(x_1,x_2,x_3|y)P(y)}{P(x_1,x_2,x_3)}$
根据马尔可夫假设， $P(x_1,x_2,x_3|y)=P(x_1|y)\times P(x_2|y)\times P(x_3|y)$ 。
由此可以解出，当 $x_1=0, x_2=0, x_3=1$ 时， $y = 0$ 的概率为：
$P(y=0|x_1=0, x_2=0, x_3=1)=\frac{P(x_1=0, x_2=0, x_3=1|y=0)P(y=0)}{P(x_1=0, x_2=0, x_3=1)}$
$P(y=1|x_1=0, x_2=0, x_3=1)=\frac{P(x_1=0, x_2=0, x_3=1|y=1)P(y=1)}{P(x_1=0, x_2=0, x_3=1)}$
因为
$P(x_1=0, x_2=0, x_3=1|y=0)=P(x_1=0|y=0)\times P(x_2=0|y=0)\times P(x_3=1|y=0)=\frac{4}{64}$
$P(x_1=0, x_2=0, x_3=1|y=1)=P(x_1=0|y=1)\times P(x_2=0|y=1)\times P(x_3=1|y=1)=\frac{18}{64}$
所以：
$P(y=0|x_1=0, x_2=0, x_3=1)=\frac{\frac{4}{64}P(y=0)}{P(x_1=0, x_2=0, x_3=1)}$
$P(y=1|x_1=0, x_2=0, x_3=1)=\frac{\frac{18}{64}P(y=1)}{P(x_1=0, x_2=0, x_3=1)}$
由于 $P(y=0)=P(y=1)=\frac{1}{2}$
所以得到
$P(y=0|x_1=0, x_2=0, x_3=1)=\frac{4}{128P(x_1=0, x_2=0, x_3=1)}$
$P(y=1|x_1=0, x_2=0, x_3=1)=\frac{18}{128P(x_1=0, x_2=0, x_3=1)}$
由此可知此学生不挂科的概率要更大一些，故将 $y$ 判断为 $y = 0$ 。

python实现

1、导入需要的库

import numpy as np 
from sklearn.naive_bayes import GaussianNB 
from sklearn.datasets import load_digits 
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix as CM

2、导入数据并划分训练集和测试集

digits = load_digits() 
X, y = digits.data, digits.target
Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,y,test_size=0.3,random_state=420)
print(Xtrain.shape)
print(Xtest.shape)
print(Ytrain.shape)
print(Ytest.shape)

3、朴素贝叶斯分类

gnb = GaussianNB().fit(Xtrain,Ytrain)
 
#查看分数 
acc_score = gnb.score(Xtest,Ytest)
print(acc_score)
 
#查看预测结果 
Y_pred = gnb.predict(Xtest)
print(Y_pred)
 
#查看预测的概率结果 
prob = gnb.predict_proba(Xtest)
print(prob.shape)

4、使用混淆矩阵来查看贝叶斯的分类结果

CM(Ytest,Y_pred)

cofisher

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习--sklearn之朴素贝叶斯分类

问题这里有八名同学在考试前一天的活动以及他们的考试结果如下表所示：挂科喝酒逛街学习11100001010111001010001100101001通过以上数据，根据朴素贝叶斯原理，判断某学生在没有喝酒，没有逛街并且学习了的情况下是否会挂科。算法步骤朴素贝叶斯分类问题的主要...
复制链接

扫一扫