AI-机器学习-自学笔记（六）朴素贝叶斯算法

最新推荐文章于 2024-05-23 15:43:21 发布

阿尔法羊

最新推荐文章于 2024-05-23 15:43:21 发布

阅读量689

点赞数

分类专栏： AI自学笔记文章标签：朴素贝叶斯 scikit-learn 鸢尾花数据集分类贝叶斯定理

本文链接：https://blog.csdn.net/qq_41597915/article/details/121233743

版权

AI自学笔记专栏收录该内容

16 篇文章 21 订阅

订阅专栏

朴素贝叶斯算法（Naive Bayesian algorithm) 是应用最为广泛的分类算法之一。

贝叶斯定理是关于随机事件A和B的条件概率（或边缘概率）的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。

贝叶斯公式（发表于1763年）：

贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其在所有类别上的后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。

打个通俗点的比方，我们知道非洲有很多黑人，即已知非洲人为黑人的先验概率比较高，如果我们在街上碰到个黑人，我们判断他可能来自哪里，比如我们认为他来自非洲的可能性比较大，即选取最大后验概率的类（来自非洲）作为我们的判断。

贝叶斯分类原理要求各个特征属性之间是独立的，不能互相影响，但在实际生活中，事物的各个特征属性往往是有联系的。朴素贝叶斯假定各个特征属性是独立的来进行分类研究，这就是“朴素”两字的含义。

朴素贝叶斯在scikit-learn中的实现类是GaussianNB

下面我们用鸢尾花数据集做一下朴素贝叶斯分类训练吧

#导入所需库
import numpy as np
from sklearn.naive_bayes import BernoulliNB, GaussianNB
from pandas import read_csv

#导入鸢尾花集数据
filename = 'data/iris/iris.data.csv' 
names = ['separ-length','separ-width','petal-length','petal-width','class'] 
dataset = read_csv(filename, names=names)
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score 
#分离数据集
array = dataset.values 
X = array[:,0:4]
Y = array[:,4] 
validation_size = 0.2 
X_train,X_validation,Y_train,Y_validation = \
train_test_split(X, Y, test_size=validation_size)

#定义模型
model = GaussianNB()
model.fit(X_train, Y_train)

#训练模型
model.fit(X, Y)
#输出预测结果
print(X[55:56])
print(model.predict(X[55:56]))#必须以区间取值的方式，[4:5] 其实就是取 4 这个值

打印结果如下：

PS C:\coding\machinelearning>朴素贝叶斯-鸢尾花分类.py
[[5.7 2.8 4.5 1.3]]
['Iris-versicolor']
PS C:\coding\machinelearning>

阿尔法羊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AI-机器学习-自学笔记（六）朴素贝叶斯算法

朴素贝叶斯算法（Naive Bayesian algorithm) 是应用最为广泛的分类算法之一。贝叶斯定理是关于随机事件A和B的条件概率（或边缘概率）的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。贝叶斯公式（发表于1763年）：贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其在所有类别上的后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。打个通俗点的比方，我们知道非洲有很多黑人，即已知非洲人为黑人的先验概率.
复制链接

扫一扫

专栏目录