机器学习十大经典算法之朴素贝叶斯（学习笔记整理）

最新推荐文章于 2024-05-15 11:02:20 发布

Magic 杨

最新推荐文章于 2024-05-15 11:02:20 发布

阅读量2k

点赞数 1

分类专栏：机器学习文章标签：朴素贝叶斯机器学习 Python

本文链接：https://blog.csdn.net/weixin_43374551/article/details/83449416

版权

机器学习专栏收录该内容

12 篇文章 37 订阅

订阅专栏

一、算法概述

朴素贝叶斯分类器是基于概率论的分类模型，其思想是先计算样本的先验概率，然后利用贝叶斯公式测算未知样本属于某个类别的后验概率，最终以最大后验概率对应的类别作为未知样本的预测类别。之所以叫"朴素"，是因为整个形式化过程只做最简单、最原始的假设。

优点：运算简单高效，分类效率稳定，对缺失值和异常值不太敏感
缺点：对输入数据的方式比较敏感，模型的前提条件在实际中很难满足
适用数据类型：标称型数据

二、理论基础

1.条件概率公式： $P(B|A)=\frac{P(AB)}{P(A)}$
2.全概率公式： $P(A)=\sum_{i=1}^{n}{P(AB_i)}=\sum_{i=1}^{n}{P(B_i)P(A|B_i)}$
3.由条件概率公式可以得到概率的乘法公式： $P (A B) = P (A) P (B ∣ A) = P (B) P (A ∣ B)$ 进而可以推导出贝叶斯公式： $P(A|B)=\frac{P(B|A)P(A)}{P(B)}$ 贝叶斯公式描述了先验概率和后验概率两个条件概率之间的关系，是贝叶斯分类器的理论基础。
4.贝叶斯分类器的核心是计算在已知X的情况下，样本属于某个类别的概率，即： $P(C_i|X)=\frac{P(C_iX)}{P(X)}=\frac{P(C_i)P(X|C_i)}{\sum_{i=1}^{k}{P(C_i)P(X|C_i)}}$ 其中C_i表示样本所属的某个类别，因变量一共包含k个类别。由于分母 ${\sum_{i=1}^{k}{P(C_i)P(X|C_i)}}$ 是常量，P(C_i)一般以C_i的频率代替，所以计算概率的最大值就变成了计算P(X|C_i)的最大值。假设一共有p个自变量，则 $P(X|C_i)=P(x_1,x_2,...,x_p|C_i)$ 显然条件联合概率值的计算在p较大时是很复杂的，为了提高分类器的运算速度，提出了一个假设前提，即自变量是相互独立的，于是 $P(x_1,x_2,...,x_p|C_i)=P(x_1|C_i)P(x_2|C_i)...P(x_p|C_i)$ 在实际运用中是很难满足这个假设条件的，所以自变量之间的独立性越强，贝叶斯分类器的效果就越好。

三、常用贝叶斯分类器

1.高斯贝叶斯分类器

适用条件：自变量X均为连续的数值型
假设条件：自变量X服从高斯正态分布
自变量X的条件概率 $P(x_j|C_i)=\frac{1}{\sqrt{2\pi}\sigma_{ji}}exp(-\frac{(x_j-\mu_{ji})^2}{2\sigma_{ji}^2})$ 其中x_j为第j个自变量的取值， $\mu_{ji}$ 为训练集中自变量x_j属于类别C_i的均值， $\sigma_{ji}$ 为训练集中自变量x_j属于类别C_i的标准差。

2.多项式贝叶斯分类器

适用条件：自变量X均为离散型变量
假设条件：自变量X的条件概率服从多项式分布
自变量X的条件概率 $P(x_j=x_{jk}|C_i)=\frac{N_{ik}+\alpha}{N_i+n\alpha}$ 其中x_jk为自变量x_j的第k个取值，N_ik表示因变量为类别C_i时自变量x_j取值x_jk的样本个数，N_i为类别C_i的样本个数， $\alpha$ 为平滑系数（防止条件概率等于0，通常取1）。

3.伯努利贝叶斯分类器

适用条件：自变量X均为0-1二元变量
假设条件：自变量X的条件概率服从伯努利分布
自变量X的条件概率 $P(x_j|C_i)=px_j+(1-p)(1-x_j)$ 其中x_j为第j个自变量，其取值为0或1；p表示类别为C_i时自变量取1的概率，可以用经验频率代替 $p=P(x_j=1|C_i)=\frac{N_{i1}+\alpha}{N_{i}+n\alpha}$ N_i1表示在类别C_i时自变量x_j取1的样本量。

四、代码实现

1.高斯贝叶斯分类器

import pandas as pd
from sklearn import model_selection,naive_bayes,metrics
import matplotlib.pyplot as plt

data=pd.read_excel(r'C:\Users\Administrator\Desktop\Skin_Segment.xlsx')
#拆分为训练集和测试集
#设置正例和负例，便于后面画ROC曲线
data.y=data.y.map({2:0,1:1})
x_train,x_test,y_train,y_test=model_selection.train_test_split(data.iloc[:,:3],data.y,
                                                               test_size=0.25,random_state=1234)
#调用高斯朴素贝叶斯
gnb=naive_bayes.GaussianNB()
gnb.fit(x_train,y_train)
gnb_pred=gnb.predict(x_test)
#显示预测结果，各类别的预测数量
print('prediction:\n',pd.Series(gnb_pred).value_counts())

#模型检验
print('模型的准确率为：',metrics.accuracy_score(y_test,gnb_pred))
print('模型的评估报告：\n',metrics.classification_report(y_test,gnb_pred))
#绘制ROC曲线
y_score=gnb.predict_proba(x_test)[:,1]
fpr,tpr,threshold=metrics.roc_curve(y_test,y_score)
roc_auc=metrics.auc(fpr,tpr)
plt.stackplot(fpr,tpr,color='steelblue',alpha=0.5,edgecolor='black')
plt.plot(fpr,tpr,color='black',lw=1)
plt.plot([0,1],[0,1],color='red',linestyle='--')
plt.text(0.5,0.3,'ROC Curve (area=%0.2f)' % roc_auc)
plt.xlabel('l-Specificity')
plt.ylabel('Sensitivity')
plt.show()

2.多项式贝叶斯分类器

import pandas as pd
from sklearn import model_selection,naive_bayes,metrics
import matplotlib.pyplot as plt

data=pd.read_csv(r'C:\Users\Administrator\Desktop\mushrooms.csv')
#使用factorize函数将字符型数据做因子化处理，将其转换为整数型数据
#factorize函数返回的是两个元素的元组，第一个元素为转换成的数值，第二个元素为数值对应的字符水平
columns=data.columns[1:]
for column in columns:
    data[column]=pd.factorize(data[column])[0]

#拆分为训练集和测试集
x_train,x_test,y_train,y_test=model_selection.train_test_split(data[columns],data.type,
                                                               test_size=0.25,random_state=1234)
#调用多项式朴素贝叶斯
mnb=naive_bayes.MultinomialNB()
mnb.fit(x_train,y_train)
mnb_pred=mnb.predict(x_test)
#显示预测结果，各类别的预测数量

#模型检验
print('模型的准确率为：',metrics.accuracy_score(y_test,mnb_pred))
print('模型的评估报告：\n',metrics.classification_report(y_test,mnb_pred))
#绘制ROC曲线
y_score=mnb.predict_proba(x_test)[:,1]
fpr,tpr,threshold=metrics.roc_curve(y_test.map({'edible':0,'poisonous':1}),y_score)
roc_auc=metrics.auc(fpr,tpr)
plt.stackplot(fpr,tpr,color='steelblue',alpha=0.5,edgecolor='black')
plt.plot(fpr,tpr,color='black',lw=1)
plt.plot([0,1],[0,1],color='red',linestyle='--')
plt.text(0.5,0.3,'ROC Curve (area=%0.2f)' % roc_auc)
plt.xlabel('l-Specificity')
plt.ylabel('Sensitivity')
plt.show()

3.伯努利贝叶斯分类器

import pandas as pd
from sklearn import model_selection,naive_bayes,metrics
from sklearn.feature_extraction.text import CountVectorizer
import matplotlib.pyplot as plt
import jieba

data=pd.read_excel(r'C:\Users\Administrator\Desktop\Contents.xlsx')
#数据清洗
data.Content=data.Content.str.replace('[0-9a-zA-Z]','')

#加载自定义词库
jieba.load_userdict(r'C:\Users\Administrator\Desktop\all_words.txt')
#读入停用词
with open(r'C:\Users\Administrator\Desktop\mystopwords.txt',encoding='utf-8') as words:
    stop_words=[i.strip() for i in words.readlines()]
#构造切词的自定义函数，在切词过程中删除停用词
def cut_word(centence):
    words=[i for i in jieba.lcut(centence) if i not in stop_words]
    result=' '.join(words)
    return(result)
#调用函数切词
words=data.Content.apply(cut_word)

#计算每个词出现的次数，并将稀疏度99%以上的词删除
counts=CountVectorizer(min_df=0.01)
#文档词条矩阵
dtm_counts=counts.fit_transform(words).toarray()
#文档的列名称
columns=counts.get_feature_names()
#形成x变量,y变量
x=pd.DataFrame(dtm_counts,columns=columns)
y=data.Type

#拆分为训练集和测试集
x_train,x_test,y_train,y_test=model_selection.train_test_split(x,y,test_size=0.25,random_state=1234)
#调用伯努利朴素贝叶斯
bnb=naive_bayes.BernoulliNB()
bnb.fit(x_train,y_train)
bnb_pred=bnb.predict(x_test)
#显示预测结果，各类别的预测数量

#模型检验
print('模型的准确率为：',metrics.accuracy_score(y_test,bnb_pred))
print('模型的评估报告：\n',metrics.classification_report(y_test,bnb_pred))
#绘制ROC曲线
y_score=bnb.predict_proba(x_test)[:,1]
fpr,tpr,threshold=metrics.roc_curve(y_test.map({'Negative':0,'Positive':1}),y_score)
roc_auc=metrics.auc(fpr,tpr)
plt.stackplot(fpr,tpr,color='steelblue',alpha=0.5,edgecolor='black')
plt.plot(fpr,tpr,color='black',lw=1)
plt.plot([0,1],[0,1],color='red',linestyle='--')
plt.text(0.5,0.3,'ROC Curve (area=%0.2f)' % roc_auc)
plt.xlabel('l-Specificity')
plt.ylabel('Sensitivity')
plt.show()

参考文献：
[1]Peter Harrington.《机器学习实战》.人民邮电出版社,2013-6
[2]刘顺祥.《从零开始学Python数据分析与挖掘》.清华大学出版社,2018

Magic 杨

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
机器学习十大经典算法之朴素贝叶斯（学习笔记整理）

1.高斯贝叶斯分类器import pandas as pdfrom sklearn import model_selection,naive_bayes,metricsimport matplotlib.pyplot as pltdata=pd.read_excel(r'C:\Users\Administrator\Desktop\Skin_Segment.xlsx')#拆分为训练集和...
复制链接

扫一扫