第30步机器学习分类实战：朴素贝叶斯建模

Jet4505

已于 2023-06-07 11:35:14 修改

阅读量615

点赞数

分类专栏：《100 Steps to Get ML》—JET学习笔记文章标签：机器学习分类 python

于 2023-05-04 19:00:29 首次发布

本文链接：https://blog.csdn.net/qq_30452897/article/details/130493033

版权

《100 Steps to Get ML》—JET学习笔记专栏收录该内容

103 篇文章 122 订阅

订阅专栏

文章目录

前言
一、数据预处理
二、NB的调参策略
三、NB调参演示
总结

前言

朴素贝叶斯建模。

一、数据预处理

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
dataset = pd.read_csv('X disease code fs.csv')
X = dataset.iloc[:, 1:14].values
Y = dataset.iloc[:, 0].values

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.30, random_state = 666)
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

二、NB的调参策略

先复习一下参数（传送门），需要调整的参数有：
① priors：先验概率大小，如果没有给定，模型则根据样本数据自己计算（利用极大似然法），这个可以不调。
② var_smoothing：所有特征的最大方差部分，添加到方差中用于提高计算稳定性，默认1e-9。

三、NB调参演示

（A）先默认参数走一波：

from sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()
classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)
y_testprba = classifier.predict_proba(X_test)[:,1] 
y_trainpred = classifier.predict(X_train)
y_trainprba = classifier.predict_proba(X_train)[:,1]
from sklearn.metrics import confusion_matrix
cm_test = confusion_matrix(y_test, y_pred)
cm_train = confusion_matrix(y_train, y_trainpred)
print(cm_train)
print(cm_test)

结果还可以：
在这里插入图片描述

调整一下参数：
（B）调var_smoothing：

from sklearn.naive_bayes import GaussianNB
param_grid=[{
             'var_smoothing': [1e-9,1e-6,1e-4,1e-3,1e-2,1,10,100],
           },
           ]
boost = GaussianNB() 
from sklearn.model_selection import GridSearchCV
grid_search = GridSearchCV(boost, param_grid, n_jobs = -1, verbose = 2, cv=10)      
grid_search.fit(X_train, y_train)    
classifier = grid_search.best_estimator_  
classifier = classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)
y_testprba = classifier.predict_proba(X_test)[:,1] 
y_trainpred = classifier.predict(X_train)
y_trainprba = classifier.predict_proba(X_train)[:,1]
from sklearn.metrics import confusion_matrix
cm_test = confusion_matrix(y_test, y_pred)
cm_train = confusion_matrix(y_train, y_trainpred)
print(cm_train)
print(cm_test)