第十二章 朴素贝叶斯模型

# 导入第三方包
import pandas as pd
# 读入数据
skin = pd.read_excel(r'Skin_Segment.xlsx')
# 设置正例和负例
skin.y = skin.y.map({2:0,1:1})
skin.y.value_counts()
# 导入第三方模块
from sklearn import model_selection
# 样本拆分
X_train,X_test,y_train,y_test = model_selection.train_test_split(skin.iloc[:,:3], skin.y, 
                                                                 test_size = 0.25, random_state=1234)
# 导入第三方模块
from sklearn import naive_bayes

# 调用高斯朴素贝叶斯分类器的“类”
gnb = naive_bayes.GaussianNB()
# 模型拟合
gnb.fit(X_train, y_train)
# 模型在测试数据集上的预测
gnb_pred = gnb.predict(X_test)
# 各类别的预测数量
pd.Series(gnb_pred).value_counts()
# 导入第三方包
from sklearn import metrics
import matplotlib.pyplot as plt
import seaborn as sns
# 构建混淆矩阵
cm = pd.crosstab(gnb_pred,y_test)
# 绘制混淆矩阵图
sns.heatmap(cm, annot = True, cmap = 'GnBu', fmt = 'd')
# 去除x轴和y轴标签
plt.xlabel('Real')
plt.ylabel('Predict')
# 显示图形
plt.show()

print('模型的准确率为:\n',metrics.accuracy_score(y_test, gnb_pred))
print('模型的评估报告:\n',metrics.classification_report(y_test, gnb_pred))
# 计算正例的预测概率,用于生成ROC曲线的数据
y_score = gnb.predict_proba(X_test)[:,1]
fpr,tpr,threshold = metrics.roc_curve(y_test, y_score)
# 计算AUC的值
roc_auc = metrics.auc(fpr,tpr)

# 绘制面积图
plt.stackplot(fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black')
# 添加边际线
plt.plot(fpr, tpr, color='black', lw = 1)
# 添加对角线
plt.plot([0,1],[0,1], color = 'red', linestyle = '--')
# 添加文本信息
plt.text(0.5,0.3,'ROC curve (area = %0.2f)' % roc_auc)
# 添加x轴与y轴标签
plt.xlabel('1-Specificity')
plt.ylabel('Sensitivity')
# 显示图形
plt.show()

# 导入第三方包
import pandas as pd
# 读取数据
mushrooms = pd.read_csv(r'mushrooms.csv')
# 数据的前5行
mushrooms.head()
# 将字符型数据作因子化处理,将其转换为整数型数据
columns = mushrooms.columns[1:]
for column in columns:
    mushrooms[column] = pd.factorize(mushrooms[column])[0]
mushrooms.head()
from sklearn import model_selection
# 将数据集拆分为训练集合测试集
Predictors = mushrooms.columns[1:]
X_train,X_test,y_train,y_test = model_selection.train_test_split(mushrooms[Predictors], mushrooms['type'], 
                                                                 test_size = 0.25, random_state = 10)
from sklearn import naive_bayes
from sklearn import metrics
import seaborn as sns
import matplotlib.pyplot as plt
# 构建多项式贝叶斯分类器的“类”
mnb = naive_bayes.MultinomialNB()
# 基于训练数据集的拟合
mnb.fit(X_train, y_train)
# 基于测试数据集的预测
mnb_pred = mnb.predict(X_test)
# 构建混淆矩阵
cm = pd.crosstab(mnb_pred,y_test)
# 绘制混淆矩阵图
sns.heatmap(cm, annot = True, cmap = 'GnBu', fmt = 'd')
# 去除x轴和y轴标签
plt.xlabel('Real')
plt.ylabel('Predict')
# 显示图形
plt.show()

# 模型的预测准确率
print('模型的准确率为:\n',metrics.accuracy_score(y_test, mnb_pred))
print('模型的评估报告:\n',metrics.classification_report(y_test, mnb_pred))
from sklearn import metrics
# 计算正例的预测概率,用于生成ROC曲线的数据
y_score = mnb.predict_proba(X_test)[:,1]
fpr,tpr,threshold = metrics.roc_curve(y_test.map({'edible':0,'poisonous':1}), y_score)
# 计算AUC的值
roc_auc = metrics.auc(fpr,tpr)

# 绘制面积图
plt.stackplot(fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black')
# 添加边际线
plt.plot(fpr, tpr, color='black', lw = 1)
# 添加对角线
plt.plot([0,1],[0,1], color = 'red', linestyle = '--')
# 添加文本信息
plt.text(0.5,0.3,'ROC curve (area = %0.2f)' % roc_auc)
# 添加x轴与y轴标签
plt.xlabel('1-Specificity')
plt.ylabel('Sensitivity')
# 显示图形
plt.show()

import pandas as pd
# 读入评论数据
evaluation = pd.read_excel(r'Contents.xlsx',sheetname=0)
# 查看数据前10行
evaluation.head(10)
# 运用正则表达式,将评论中的数字和英文去除
evaluation.Content = evaluation.Content.str.replace('[0-9a-zA-Z]','')
evaluation.head()
# 导入第三方包
import jieba

# 加载自定义词库
jieba.load_userdict(r'all_words.txt')

# 读入停止词
with open(r'mystopwords.txt', encoding='UTF-8') as words:
    stop_words = [i.strip() for i in words.readlines()]

# 构造切词的自定义函数,并在切词过程中删除停止词
def cut_word(sentence):
    words = [i for i in jieba.lcut(sentence) if i not in stop_words]
    # 切完的词用空格隔开
    result = ' '.join(words)
    return(result)
# 对评论内容进行批量切词
words = evaluation.Content.apply(cut_word)
# 前5行内容的切词效果
words[:5]
# 导入第三方包
from sklearn.feature_extraction.text import CountVectorizer
# 计算每个词在各评论内容中的次数,并将稀疏度为99%以上的词删除
counts = CountVectorizer(min_df = 0.01)
# 文档词条矩阵
dtm_counts = counts.fit_transform(words).toarray()
# 矩阵的列名称
columns = counts.get_feature_names()
# 将矩阵转换为数据框--即X变量
X = pd.DataFrame(dtm_counts, columns=columns)
# 情感标签变量
y = evaluation.Type
X.head()
from sklearn import model_selection
from sklearn import naive_bayes
from sklearn import metrics
import matplotlib.pyplot as plt
import seaborn as sns
# 将数据集拆分为训练集和测试集
X_train,X_test,y_train,y_test = model_selection.train_test_split(X,y,test_size = 0.25, random_state=1)
# 构建伯努利贝叶斯分类器
bnb = naive_bayes.BernoulliNB()
# 模型在训练数据集上的拟合
bnb.fit(X_train,y_train)
# 模型在测试数据集上的预测
bnb_pred = bnb.predict(X_test)
# 构建混淆矩阵
cm = pd.crosstab(bnb_pred,y_test)
# 绘制混淆矩阵图
sns.heatmap(cm, annot = True, cmap = 'GnBu', fmt = 'd')
# 去除x轴和y轴标签
plt.xlabel('Real')
plt.ylabel('Predict')
# 显示图形
plt.show()

# 模型的预测准确率
print('模型的准确率为:\n',metrics.accuracy_score(y_test, bnb_pred))
print('模型的评估报告:\n',metrics.classification_report(y_test, bnb_pred))
# 计算正例Positive所对应的概率,用于生成ROC曲线的数据
y_score = bnb.predict_proba(X_test)[:,1]
fpr,tpr,threshold = metrics.roc_curve(y_test.map({'Negative':0,'Positive':1}), y_score)
# 计算AUC的值
roc_auc = metrics.auc(fpr,tpr)

# 绘制面积图
plt.stackplot(fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black')
# 添加边际线
plt.plot(fpr, tpr, color='black', lw = 1)
# 添加对角线
plt.plot([0,1],[0,1], color = 'red', linestyle = '--')
# 添加文本信息
plt.text(0.5,0.3,'ROC curve (area = %0.2f)' % roc_auc)
# 添加x轴与y轴标签
plt.xlabel('1-Specificity')
plt.ylabel('Sensitivity')
# 显示图形
plt.show()

好的,我会为您逐一回答。 (1)将数据划分为训练集和测试集,20%的数据作为测试集。 代码如下: ```python from sklearn.datasets import load_wine from sklearn.model_selection import train_test_split wine = load_wine() X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.2, random_state=42) ``` (2)建立决策树模型,输出规则,绘制决策树图。并对图中任意两条规则进行解释。 代码如下: ```python from sklearn.tree import DecisionTreeClassifier, export_text, plot_tree dtc = DecisionTreeClassifier(random_state=42) dtc.fit(X_train, y_train) r = export_text(dtc, feature_names=wine.feature_names) print(r) plot_tree(dtc, filled=True, feature_names=wine.feature_names, class_names=wine.target_names) ``` 输出的规则如下: ``` |--- proline <= 755.00 | |--- color_intensity <= 4.95 | | |--- flavanoids <= 2.71 | | | |--- class: 1 | | |--- flavanoids > 2.71 | | | |--- class: 0 | |--- color_intensity > 4.95 | | |--- proline <= 466.50 | | | |--- class: 2 | | |--- proline > 466.50 | | | |--- ash <= 2.18 | | | | |--- class: 2 | | | |--- ash > 2.18 | | | | |--- class: 1 |--- proline > 755.00 | |--- color_intensity <= 3.77 | | |--- proline <= 825.00 | | | |--- class: 0 | | |--- proline > 825.00 | | | |--- class: 2 | |--- color_intensity > 3.77 | | |--- proline <= 855.00 | | | |--- class: 0 | | |--- proline > 855.00 | | | |--- class: 2 ``` 决策树图如下: ![decision_tree](https://img-blog.csdnimg.cn/2021051209510010.png) 规则解释: 1. 如果葡萄酒的proline小于等于755.00,color_intensity小于等于4.95,flavanoids小于等于2.71,那么分类为1类。 2. 如果葡萄酒的proline小于等于755.00,color_intensity小于等于4.95,flavanoids大于2.71,那么分类为0类。 (3)对测试集数据进行预测,输出准确率误、混淆矩阵,并对模型进行评价。 代码如下: ```python from sklearn.metrics import accuracy_score, confusion_matrix y_pred = dtc.predict(X_test) print("Accuracy: ", accuracy_score(y_test, y_pred)) print("Confusion Matrix: \n", confusion_matrix(y_test, y_pred)) ``` 输出结果如下: ``` Accuracy: 0.9166666666666666 Confusion Matrix: [[10 0 0] [ 1 12 1] [ 0 0 6]] ``` 模型评价: 决策树模型的准确率为0.917,混淆矩阵表明,模型预测正确的样本数较多,但是对于第二类葡萄酒,预测出了1个错误分类。 (4)用朴素贝叶斯分类方法对该数据集进行分类,并评价模型。 代码如下: ```python from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() gnb.fit(X_train, y_train) y_pred = gnb.predict(X_test) print("Accuracy: ", accuracy_score(y_test, y_pred)) print("Confusion Matrix: \n", confusion_matrix(y_test, y_pred)) ``` 输出结果如下: ``` Accuracy: 0.9722222222222222 Confusion Matrix: [[10 0 0] [ 0 13 1] [ 0 0 6]] ``` 模型评价: 朴素贝叶斯分类方法的准确率为0.972,混淆矩阵表明,模型预测准确率较高,对于所有类别的葡萄酒都没有出现错误分类。 (5)用K近邻分类方法对该数据集进行分类,并评价模型。 代码如下: ```python from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier() knn.fit(X_train, y_train) y_pred = knn.predict(X_test) print("Accuracy: ", accuracy_score(y_test, y_pred)) print("Confusion Matrix: \n", confusion_matrix(y_test, y_pred)) ``` 输出结果如下: ``` Accuracy: 0.75 Confusion Matrix: [[ 9 1 0] [ 4 9 1] [ 0 4 2]] ``` 模型评价: K近邻分类方法的准确率为0.75,混淆矩阵表明,模型的预测准确率较低。对于第二类葡萄酒,预测出了4个错误分类。由于数据集较小,模型的泛化能力不够强,需要更多的训练数据和参数调整来改进模型的预测效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

灯下夜无眠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值