sklearn朴素贝叶斯（naive_bayes）多分类问题

最新推荐文章于 2023-12-23 22:46:03 发布

Yvesx

最新推荐文章于 2023-12-23 22:46:03 发布

阅读量3.6k

点赞数 3

分类专栏： sklearn 文章标签：机器学习 python 深度学习

本文链接：https://blog.csdn.net/Yvesx/article/details/111225602

版权

sklearn 专栏收录该内容

7 篇文章 6 订阅

订阅专栏

模型

sklearn.naive_bayes类库的主要分类器：
GaussianNB, MultinomialNB, BernoulliNB
区别，参数详解

预处理

import pandas as pd
path = "../Data/classify.csv"
rawdata = pd.read_csv(path) 
X = rawdata.iloc[:,:13]
Y = rawdata.iloc[:,14]  # {”A":0,"B":1,"C":2}
Y = pd.Categorical(Y).codes  # ABC变成123

自变量均为连续型，用GaussianNB好一些。这里还是都尝试了一遍。

建模

gaussian = naive_bayes.GaussianNB()
multi = naive_bayes.MultinomialNB()
bernoul = naive_bayes.BernoulliNB()
models = [gaussian,multi, bernoul]

训练+评价

def svc_model(model):
    model.fit(x_train, y_train)
    acu_train = model.score(x_train, y_train)
    acu_test = model.score(x_test, y_test)
    y_pred = model.predict(x_test)
    recall = recall_score(y_test, y_pred, average="macro")
    return acu_train, acu_test, recall

result = {
          "acu_train": [],
          "acu_test": [],
          "recall": []
          }
for each in models:
    acu_train, acu_test, recall = svc_model(each)
    result["acu_train"].append(acu_train)
    result["acu_test"].append(acu_test)
    result["recall"].append(recall)

结果

在这里插入图片描述
测试集上准确率有76%

进行特征选择后重新训练

自变量之间的相关性

在这里插入图片描述
选择与其他自变量相关性最强和最弱的特征

features_w = ['CHAS', 'RM', 'PTRATIO', 'B', 'LSTAT']
features_s = ['CRIM', 'RAD', 'TAX', 'AGE', 'DIS']

重新训练

def selected_bys(features):
    x2_train = x_train[features]
    x2_test = x_test[features]

    model = naive_bayes.GaussianNB()
    model.fit(x2_train, y_train)
    acu_train = model.score(x2_train, y_train)
    acu_test = model.score(x2_test, y_test)
    y_pred = model.predict(x2_test)
    recall = recall_score(y_test, y_pred, average="macro")
    return acu_train, acu_test, recall

selected_bys(features_w)
selected_bys(features_s)

结果对比

在这里插入图片描述
印证了朴素贝叶斯“朴素”的含义，即特征之间的相关性越低，越接近独立，模型效果越好。若特征之间的相关性较强，则会导致模型的分类效果下降。

Yvesx

关注

3
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
sklearn朴素贝叶斯（naive_bayes）多分类问题

模型sklearn.naive_bayes类库的主要分类器：GaussianNB, MultinomialNB, BernoulliNB参数详解预处理import pandas as pdpath = "../Data/classify.csv"rawdata = pd.read_csv(path) X = rawdata.iloc[:,:13]Y = rawdata.iloc[:,14] # {”A":0,"B":1,"C":2}Y = pd.Categorical(Y).codes
复制链接

扫一扫