鸢尾花分类_机器学习：鸢尾花数据集--贝叶斯分类

最新推荐文章于 2024-05-14 18:23:28 发布

weixin_39963465

最新推荐文章于 2024-05-14 18:23:28 发布

阅读量1.1k

点赞数

文章标签：鸢尾花分类

本文链接：https://blog.csdn.net/weixin_39963465/article/details/112674558

版权

该博客介绍了如何使用Python的sklearn库进行鸢尾花数据集的分类，特别是通过高斯朴素贝叶斯算法。首先，导入必要的库，加载数据并进行训练测试集划分。接着，训练高斯朴素贝叶斯模型，并展示模型的预测准确率。最后，解释了高斯朴素贝叶斯假设特征服从高斯分布的原理。

摘要由CSDN通过智能技术生成

莺尾花数据集--贝叶斯分类

Step1: 库函数导入
import warnings
warnings.filterwarnings('ignore')
import numpy as np# 加载莺尾花数据集
from sklearn import datasets# 导入高斯朴素贝叶斯分类器
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_splitStep2: 数据导入&分析
X, y = datasets.load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
我们需要计算两个概率分别是：条件概率： ( ( )= ( )| = )P(X(i)=x(i)|Y=ck)和类目 ck的先验概率： ( = )P(Y=ck)。
通过分析发现训练数据是数值类型的数据，这里假设每个特征服从高斯分布，因此我们选择高斯朴素贝叶斯来进行分类计算。

Step3: 模型训练# 使用高斯朴素贝叶斯进行计算
clf = GaussianNB(var_smoothing=1e-8)
clf.fit(X_train, y_train)
GaussianNB(var_smoothing=1e-08)Step4: 模型预测# 评估
y_pred = clf.predict(X_test)
acc = np.sum(y_test == y_pred) / X_test.shape[0]
print("Test Acc : %.3f" % acc)
# 预测
y_proba = clf.predict_proba(X_test[:1])
print(clf.predict(X_test[:1]))
print("预计的概率值:", y_proba)
Test Acc : 0.967 [2] 预计的概率值: [[1.63542393e-232 2.18880483e-006 9.99997811e-001]]

Step5: 原理简析

高斯朴素贝叶斯假设每个特征都服从高斯分布，我们把一个随机变量X服从数学期望为μ，方差为σ^2的数据分布称为高斯分布。对于每个特征我们一般使用平均值来估计μ和使用所有特征的方差估计σ^2。
( ( )= ( )| = )=12 2 ⎯⎯⎯⎯⎯⎯⎯⎯√exp(−( ( )− )22 2 )P(X(i)=x(i)|Y=ck)=12πσy2exp⁡(−(x(i)−μck)22σck2)
从上述例子中的预测结果中，我们可以看到类别2对应的后验概率值最大，所以我们认为类目2是最优的结果。

weixin_39963465

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
鸢尾花分类_机器学习：鸢尾花数据集--贝叶斯分类

莺尾花数据集--贝叶斯分类Step1: 库函数导入import warningswarnings.filterwarnings('ignore')import numpy as np# 加载莺尾花数据集from sklearn import datasets# 导入高斯朴素贝叶斯分类器from sklearn.naive_bayes import GaussianNBfrom sklearn.mo...
复制链接

扫一扫