机器学习之朴素贝叶斯


前言:主要介绍朴素贝叶斯的概念、公式,以及代码实现贝努利、高斯、多项式朴素贝叶斯。


1 朴素贝叶斯

  • 朴素贝叶斯(Naive Bayes)是一个非常简单,但是实用性很强的分类模型。朴素贝叶斯分类器的构造基础是贝叶斯理论。
  • 联合概率:是指两件事情同时发生的概率,一般对于X和Y来说,对应的联合概率记为P(XY)。
  • 条件概率:表示为在Y发生的条件下,发生X的概率。记为P(X∣Y)。
  • 贝叶斯公式:在这里插入图片描述,其中W为特征向量,C为预测的类别。

2 朴素贝叶斯应用

id刮北风闷热多云预报有雨真下雨?
101010
211101
301101
400010
501101
601010
710010

注意:0代表否,1代表是。
我们可以使用上述公式依次计算出真下雨的概率,这里不再计算。我们可以通过代码使用贝努利、高斯、多项式来完成计算。

3 代码实现贝努力朴素贝叶斯

为了方便继续使用上述数据进行预测,数据截图如下:
在这里插入图片描述
代码实现:

from sklearn.model_selection import train_test_split
import pandas as pd
from sklearn.naive_bayes import BernoulliNB

def naviebayes():
    # 读取数据
    data = pd.read_csv("train_2.csv")
    # 取出数据当中的特征值和目标值
    y = data['真下雨?'] #目标值
    x = data[['刮北风', '闷热','多云','天气预报有雨']] #特征值
    # 进行数据分割
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

    #贝努力朴素贝叶斯
    clf = BernoulliNB()
    clf.fit(x_train, y_train)
    y_predict = clf.predict(x_test)
    print(x_test)
    print(y_predict)
    print("预测的概率为",clf.score(x_test, y_test))
    print("--------------------")
    Next_Day = [[0, 0, 1, 0]]
    pre = clf.predict(Next_Day)
    pre2 = clf.predict_proba(Next_Day)
    print("预测结果为:", pre)
    # 输出模型预测的分类概率
    print("预测的概率为:", pre2)


if __name__ == '__main__':
    naviebayes()

截图:
在这里插入图片描述

4 代码实现高斯朴素贝叶斯

代码实现:

from sklearn.model_selection import train_test_split
import pandas as pd
from sklearn.naive_bayes import GaussianNB

def naviebayes():
    # 读取数据
    data = pd.read_csv("train_2.csv")
    # 取出数据当中的特征值和目标值
    y = data['真下雨?'] #目标值
    x = data[['刮北风', '闷热','多云','天气预报有雨']] #特征值
    # 进行数据分割
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

    #高斯朴素贝叶斯
    gnb = GaussianNB()
    gnb.fit(x_train, y_train)
    y_predict = gnb.predict(x_test)
    print(x_test)
    print(y_predict)
    print("预测的概率为",gnb.score(x_test, y_test))
    print("--------------------")
    Next_Day = [[0, 0, 1, 0]]
    pre = gnb.predict(Next_Day)
    pre2 = gnb.predict_proba(Next_Day)
    print("预测结果为:", pre)
    # 输出模型预测的分类概率
    print("预测的概率为:", pre2)



if __name__ == '__main__':
    naviebayes()

截图:
在这里插入图片描述

5 代码实现多项式朴素贝叶斯

代码如下:

from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
import pandas as pd


def naviebayes():
    # 读取数据
    data = pd.read_csv("train_2.csv")
    # 取出数据当中的特征值和目标值
    y = data['真下雨?'] #目标值
    x = data[['刮北风', '闷热','多云','天气预报有雨']] #特征值
    # 进行数据分割
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

    # 多项式朴素贝叶斯
    mlt = MultinomialNB(alpha=1.0)
    mlt.fit(x_train, y_train)
    y_predict = mlt.predict(x_test)
    print(x_test)
    print(y_predict)
    print("准确率为:", mlt.score(x_test, y_test))
    print("--------------------")
    Next_Day = [[0, 0, 1, 0]]
    pre = mlt.predict(Next_Day)
    pre2 = mlt.predict_proba(Next_Day)
    print("预测结果为:", pre)
    # 输出模型预测的分类概率
    print("预测的概率为:", pre2)

if __name__ == '__main__':
    naviebayes()

截图:
在这里插入图片描述

6 总结

通过对比贝努力、高斯、多项式的结果,预测的准确率不一样,所以我们在开发使用的时候,一定要注意区分这几类。

  • 4
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
首先,我们需要探索一下数据集。西瓜数据集 2.0 是一个经典的二分类数据集,其中包含 17 个样本和 8 个特征。我们可以使用 Python 中的 Pandas 库来读取数据集。 ```python import pandas as pd # 读取数据集 data = pd.read_csv('watermelon_2.csv') print(data.head()) ``` 接下来,我们需要对数据集进行预处理。首先,我们将数据集划分为训练集和测试集。我们可以使用 Scikit-learn 库中的 train_test_split 方法来实现。 ```python from sklearn.model_selection import train_test_split # 划分数据集 X = data.iloc[:, 1:8] y = data.iloc[:, 8] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0) ``` 然后,我们可以使用朴素贝叶斯分类器来训练我们的模型。Scikit-learn 库中提供了多种朴素贝叶斯分类器,例如 GaussianNB、MultinomialNB 和 BernoulliNB。在这里,我们将使用 GaussianNB。 ```python from sklearn.naive_bayes import GaussianNB # 创建模型 model = GaussianNB() # 训练模型 model.fit(X_train, y_train) ``` 最后,我们可以使用测试集来评估我们的模型。 ```python # 预测分类 y_pred = model.predict(X_test) # 计算准确率 accuracy = (y_pred == y_test).sum() / len(y_test) print('准确率:', accuracy) ``` 完整代码如下: ```python import pandas as pd from sklearn.model_selection import train_test_split from sklearn.naive_bayes import GaussianNB # 读取数据集 data = pd.read_csv('watermelon_2.csv') # 划分数据集 X = data.iloc[:, 1:8] y = data.iloc[:, 8] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0) # 创建模型 model = GaussianNB() # 训练模型 model.fit(X_train, y_train) # 预测分类 y_pred = model.predict(X_test) # 计算准确率 accuracy = (y_pred == y_test).sum() / len(y_test) print('准确率:', accuracy) ``` 执行代码后,我们可以得到如下结果: ``` 准确率: 0.6 ``` 因为样本数量比较少,所以准确率并不高。如果我们使用更多的数据或者其他的朴素贝叶斯分类器,可能会得到更好的结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

等待着冬天的风

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值