Python 实现朴素贝叶斯代码演示

朴素贝叶斯可以细分为三种方法:分别是伯努利朴素贝叶斯、高斯朴素贝叶斯和多项式朴素贝叶斯。下文就这三种方法进行详细讲解和演示。

目录

一、伯努利朴素贝叶斯方法

1.1 例子解答

1.1.1 代码:

1.1.2 结果: 

 二、高斯朴素贝叶斯方法

2.1 解题

2.1.1 代码:

2.1.2 结果:

2.2 检查高斯朴素贝叶斯的正确率

2.2.1 代码:

2.2.2 结果: 

 三、多项式朴素贝叶斯方法

3.1 多项式朴素贝叶斯实现新闻文本分类

3.1.1 代码

3.1.2 结果

 3.2 检测正确率

3.2.1 代码

3.2.2结果 


一、伯努利朴素贝叶斯方法

伯努利朴素贝叶斯是假定样本特征的条件概率分布服从二项分布,即“0-1分布”。

1.1 例子解答

例如利用伯努利朴素贝叶斯预测天气会不会下雨:

 其中有雨用1标识,无雨用0标识。

各种属性则是用1标识,否用0标识。一直上表的下雨情况为Y=[1,1,1,1,0,1,1,0]

问(无风,不潮湿,多云,不闷热)的情况是否下雨。

这里可以将预测数据设为x_pre=[0,0,1,1]

1.1.1 代码:

import numpy as np
x = np.array([[0,1,0,1],[1,1,1,1],[1,1,1,0],[0,1,1,0],[0,1,0,0],[0,1,0,1],
              [1,1,0,1],[1,0,0,1],[1,1,0,1],[0,0,0,0]])
y = np.array([1,1,1,1,0,1,0,1,1,0])

from sklearn.naive_bayes import BernoulliNB
bnb = BernoulliNB()
bnb.fit(x,y)
day_pre=[[0,0,1,0]]
pre = bnb.predict(day_pre)
print("预测结果如下\n:",'*'*50)
print('结果为:',pre)
print('*'*50)

#进一步查看概率分布
pre_pro = bnb.predict_proba(day_pre)
print("不下雨的概率为:",pre_pro[0][0],"\n下雨的概率为:",pre_pro[0][1])

1.1.2 结果: 

 二、高斯朴素贝叶斯方法

高斯朴素贝叶斯分类器是假定样本特征符合高斯分布时常用的算法。高斯分布也称为正态分布。如果随机变量X服从一个数学期望μ、方差的正态分布。可以直接调用sklearn.native_bayes.GuassianNB().

2.1 解题

上述题用高斯朴素贝叶斯方法预测的结果如下:

2.1.1 代码:

import numpy as np
x = np.array([[0,1,0,1],[1,1,1,1],[1,1,1,0],[0,1,1,0],[0,1,0,0],[0,1,0,1],
              [1,1,0,1],[1,0,0,1],[1,1,0,1],[0,0,0,0]])
y = np.array([1,1,1,1,0,1,0,1,1,0])

# from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
gnb.fit(x,y)
day_pre=[[0,0,1,0]]
pre = gnb.predict(day_pre)
print("预测结果如下\n:",'*'*50)
print('结果为:',pre)
print('*'*50)

#进一步查看概率分布
pre_pro = gnb.predict_proba(day_pre)
print("不下雨的概率为:",pre_pro[0][0],"\n下雨的概率为:",pre_pro[0][1])

2.1.2 结果:

2.2 检查高斯朴素贝叶斯的正确率

利用sklearn自带的数据集来展示高斯朴素贝叶斯来验证正确率:

2.2.1 代码:

from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
x,y = make_blobs(n_samples = 800,centers = 6,random_state = 6)
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25,random_state=33)

gnb = GaussianNB()
gnb.fit(x_train,y_train)
print('-'*50)
print('高斯朴素贝叶斯的正确率为:',gnb.score(x_test,y_test))
print('-'*50)

2.2.2 结果: 

 三、多项式朴素贝叶斯方法

多项式朴素贝叶斯是假定样本特征符合多项式分布时常用的算法,把一个二项式公式推广至多种状态,就得到了多项分布。例如骰子。

3.1 多项式朴素贝叶斯实现新闻文本分类

以sklearn.datasets中的新闻文本数据集为例,展示朴素贝叶斯分类方法。

其中sklearn.dates中的fetch_20newsgroups数据集一共射击20个话题,进行预测分类。

3.1.1 代码

#加载数据
from sklearn.datasets import fetch_20newsgroups
newsgroups = fetch_20newsgroups(subset='all')
x = newsgroups.data
y = newsgroups.target
#查看目标
print('目标变量:\n',newsgroups.target_names)
#查看特征变量情况
print('特征变量示例:\n',x[0])
#查看特征变量目标
print('特征变量目标:\n',y)

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=33)

from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer()
x_vec_train = vec.fit_transform(x_train)
x_vec_test = vec.transform(x_test)

from sklearn.naive_bayes import MultinomialNB
mnb = MultinomialNB()
mnb.fit(x_vec_train,y_train)
mnb_y_predict = mnb.predict(x_vec_test)

from sklearn.metrics import classification_report
print(classification_report(y_test,mnb_y_predict))

3.1.2 结果

 

 

 3.2 检测正确率

3.2.1 代码

from sklearn.datasets import make_blobs
import numpy as np

#自带数据集
x,y = make_blobs(n_samples=800,centers=6,random_state=6)
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25,random_state=33)

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(x_train)
x_train_s = scaler.transform(x_train)
x_test_s = scaler.transform(x_test)

from sklearn.naive_bayes import MultinomialNB
mnb = MultinomialNB()
mnb.fit(x_train_s,y_train)

print('*'*50)
print('多项式朴素贝叶斯法准确率:',mnb.score(x_test_s,y_test))
print('*'*50)

3.2.2结果 

 

  • 16
    点赞
  • 235
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
以下是Python实现朴素贝叶斯分类的示例代码: ```python import numpy as np class NaiveBayes: def __init__(self, X, y): self.X = X self.y = y self.n_samples, self.n_features = X.shape self.classes = np.unique(y) self.n_classes = len(self.classes) self.mean = np.zeros((self.n_classes, self.n_features), dtype=np.float64) self.var = np.zeros((self.n_classes, self.n_features), dtype=np.float64) self.priors = np.zeros(self.n_classes, dtype=np.float64) def fit(self): for c in self.classes: X_c = self.X[self.y == c] self.mean[c, :] = X_c.mean(axis=0) self.var[c, :] = X_c.var(axis=0) self.priors[c] = X_c.shape[0] / float(self.n_samples) def predict(self, X): y_pred = [self._predict(x) for x in X] return np.array(y_pred) def _predict(self, x): posteriors = [] for idx, c in enumerate(self.classes): prior = np.log(self.priors[idx]) class_conditional = np.sum(np.log(self._pdf(idx, x))) posterior = prior + class_conditional posteriors.append(posterior) return self.classes[np.argmax(posteriors)] def _pdf(self, class_idx, x): mean = self.mean[class_idx] var = self.var[class_idx] numerator = np.exp(-(x - mean)**2 / (2 * var)) denominator = np.sqrt(2 * np.pi * var) return numerator / denominator ``` 其中,`X`是训练集的特征矩阵,`y`是训练集的标签向量。`fit()`方法用于拟合模型,`predict(X)`方法用于预测新样本的标签。 在拟合模型时,我们需要计算每个类别的均值、方差和先验概率。`_pdf()`方法用于计算正态分布的概率密度函数。`_predict()`方法用于计算每个类别的后验概率,并返回具有最高后验概率的类别的标签。 以下是如何使用该类进行分类的示例: ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 加载鸢尾花数据集 iris = load_iris() X = iris.data y = iris.target # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 训练模型并进行预测 nb = NaiveBayes(X_train, y_train) nb.fit() y_pred = nb.predict(X_test) # 计算准确率 accuracy = accuracy_score(y_test, y_pred) print('Accuracy:', accuracy) ``` 输出: ``` Accuracy: 1.0 ``` 以上示例代码演示了如何使用朴素贝叶斯分类器对鸢尾花数据集进行分类。在该数据集上,该分类器的准确率达到了100%。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值