【朴素贝叶斯分类】原理及python程序示例

最新推荐文章于 2024-08-06 11:08:19 发布

SpaceAutomation

最新推荐文章于 2024-08-06 11:08:19 发布

阅读量4.5k

点赞数 4

分类专栏：机器学习文章标签：机器学习朴素贝叶斯

本文链接：https://blog.csdn.net/u014157632/article/details/60468070

版权

机器学习专栏收录该内容

12 篇文章 4 订阅

订阅专栏

1、基本原理

1.1 贝叶斯公式

有训练集T={(x1,y1),(x2,y2)……,(xn,yn)},由P(X,Y)独立同分布产生。X为输入空间，即样本的属性。Y为输出空间，即样本的分类结果，设有k类，每类为ck。套用贝叶斯公式可得：

其中P(Y=ck|X=x)为后验概率，P(Y=ck)为先验概率，P(X=x|Y=ck)为后验概率或似然概率，P(X=x)为先验概率。由于假设数据是独立同分布的，所以似然概率可以写成：

带入可得朴素贝叶斯分类的基本公式：

1.2 朴素贝叶斯分类器

对于一个样本（x，y），我们利用贝叶斯公式分别计算出y属于c1，c2……ck类的概率，选择概率最大的那个分类cmax，即y属于cmax类。则朴素贝叶斯分类器可写成：

P（X=x）对于所有分类都是一样的，是个常数，由于是求最大化，所以只求分子最大化即可，最终朴素贝叶斯分类器公式为：

1.3 参数估计

训练的过程即为估计P(Y=ck)和P(Xj=xj|Y=ck)的过程，可以用极大似然估计。对于先验概率P(Y=ck)的极大似然估计为：

|Dc|为训练集D中第c类样本容量。

对于离散属性，条件概率P(Xj=xj|Y=ck)估计为：

Dc,xi表示Dc在第i个属性上取值为xi的样本容量。对于连续属性，假定P(Xj=xj|Y=ck)服从正太分布，则有

μc,i和σc,i的平方为第c类样本在第i个属性上取值的均值和方差。

2、Python代码示例

调用scikit-learn机器学习库实现朴素贝叶斯分类器。数据文件wine data 点这里下载，在右侧可以找到“wine”连接，下载wine.data文件。这是意大利三种酒的分类数据，包含了13种不同的酒的属性，共分成3类，分别标记为“1”、“2”、“3”。每行为一个样本数据，第一列为酒的种类，后13列为酒的属性，一共178个样本。源代码如下：

import scipy as sp
import numpy as np
from sklearn.cross_validation import train_test_split
from sklearn import metrics
from sklearn.naive_bayes import GaussianNB

x=np.loadtxt("wine.data" , delimiter = "," , usecols=(1,2,3,4,5,6,7,8,9,10,11,12,13) )      #获取样本的属性集
y=np.loadtxt("wine.data" , delimiter = "," , usecols=(0) )                                  #获取标样本的签集
# 加载数据集，切分数据集80%训练，20%测试
#x_train、y_train为训练集，x_test、y_test为测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)         

# 调用GaussianNB分类器，假定数据服从正太分布
clf=GaussianNB().fit(x_train,y_train)      #训练
doc_class_predicted = clf.predict(x_test)    #测试
expected=y_test    #期望输出
print(y_test)                  #输出实际结果
print(doc_class_predicted)     #输出测试结果
#结果报告输出
print(metrics.classification_report(expected, doc_class_predicted))    #输出结果，精确度、召回率、f-1分数
print(metrics.confusion_matrix(expected, doc_class_predicted))         #混淆矩阵

运行结果如下：