通俗易懂之朴素贝叶斯（Naive Bayes）原理及其python实现（不依赖高级库）

智识小站

已于 2025-03-14 10:52:18 修改

阅读量1.2k

点赞数 20

分类专栏：可解释机器学习文章标签： python 人工智能机器学习

于 2025-03-13 11:05:38 首次发布

本文链接：https://blog.csdn.net/qq_31763735/article/details/145271622

版权

可解释机器学习专栏收录该内容

15 篇文章

订阅专栏

下面将详细讲解**朴素贝叶斯（Naive Bayes）**方法，包括其原理、算法流程、特性与优缺点、可解释性、简单案例及手工计算、手工计算过程的Python编程实现，以及使用库函数的部分。

朴素贝叶斯简介
朴素贝叶斯的原理
朴素贝叶斯的算法流程
朴素贝叶斯的特性与优缺点
朴素贝叶斯的可解释性
简单案例及手工计算
- 6.1 简单示例
- 6.2 手工计算过程
Python编程实现
- 7.1 手工实现朴素贝叶斯
- 7.2 使用Python库函数实现朴素贝叶斯
  - 7.2.1 使用Scikit-Learn实现朴素贝叶斯
  - 7.2.2 朴素贝叶斯模型的可视化与解释
总结

朴素贝叶斯简介

**朴素贝叶斯（Naive Bayes）**是一类基于贝叶斯定理并假设特征之间相互独立的概率分类算法。尽管这个独立性假设在实际应用中往往不成立，但朴素贝叶斯在许多实际任务中表现出色，尤其在文本分类（如垃圾邮件检测）和情感分析中具有广泛应用。

主要类别：

高斯朴素贝叶斯（Gaussian Naive Bayes）：假设特征服从高斯分布，适用于连续特征。
多项式朴素贝叶斯（Multinomial Naive Bayes）：适用于多项式分布的数据，常用于文本文档的词频统计。
伯努利朴素贝叶斯（Bernoulli Naive Bayes）：适用于伯努利分布的数据，特征是二元的（如文档中是否包含某个词）。

朴素贝叶斯的原理

朴素贝叶斯基于贝叶斯定理（Bayes’ Theorem），结合特征之间的条件独立性假设，进行分类。贝叶斯定理描述了后验概率与先验概率和似然概率之间的关系。

贝叶斯定理

$\frac{P(X|Y) \cdot P(Y)}{P(X)}$

其中：

$P (Y ∣ X)$ ：给定特征 $X$ 时，类别 $Y$ 的后验概率。
$P (Y)$ ：类别 $Y$ 的先验概率。
$P (X ∣ Y)$ ：在类别 $Y$ 下，特征 $X$ 的似然概率。
$P (X)$ ：特征 $X$ 的边缘概率。

条件独立性假设

朴素贝叶斯假设所有特征 $\{x_1, x_2, \ldots, x_n\}$ 在给定类别 $Y$ 的条件下是相互独立的，即：

$P(x_1|Y) \cdot P(x_2|Y) \cdot \ldots \cdot P(x_n|Y) = \prod_{i=1}^{n} P(x_i|Y)$

分类决策

在进行分类时，朴素贝叶斯选择具有最高后验概率的类别：

$Y_{pred} = \arg\max_Y P(Y|X) = \arg\max_Y P(X|Y) \cdot P(Y)$

由于 $P (X)$ 对所有类别 $Y$ 是常数，可以省略，因此分类决策公式简化为：

$Y_{pred} = \arg\max_Y \prod_{i=1}^{n} P(x_i|Y) \cdot P(Y)$

朴素贝叶斯的算法流程

数据准备：
- 收集并整理带有类别标签的训练数据。
- 预处理数据（如处理缺失值、编码分类特征等）。
计算先验概率 $P (Y)$ ：
- 计算每个类别在训练数据中的比例。
计算似然概率 $P(x_i|Y)$ ：
- 根据不同的朴素贝叶斯类型（高斯、多项式、伯努利）计算各特征在不同类别下的概率分布参数。
模型训练：
- 记录所有必要的概率参数（先验概率和似然概率）。
预测：
- 对于新样本，计算每个类别的后验概率 $P (Y ∣ X)$ 。
- 选择具有最高后验概率的类别作为预测结果。
评估：
- 使用适当的评估指标（如准确率、召回率、F1分数等）评估模型性能。

朴素贝叶斯的特性与优缺点

4.1 特性

简单高效：
- 算法实现简单，计算效率高，适用于大规模数据集。
基于概率：
- 提供了类别的后验概率，有助于评估预测的置信度。
适用性广：
- 适用于分类任务，如文本分类、垃圾邮件检测、情感分析等。
良好的可解释性：
- 可通过查看先验概率和似然概率，理解模型的决策依据。

4.2 优点

计算效率高：
- 训练和预测过程简单，特别适用于高维特征数据。
表现良好：
- 在特征之间相互独立的情况下表现最佳，且在特征关联性较弱的情况也能保持较好的性能。
抗过拟合：
- 由于模型简单，不容易过拟合，尤其在数据量较大时。
适用于缺失数据：
- 对于部分缺失的特征仍能进行预测。
可解释性强：
- 模型的参数（先验概率和似然概率）直观明确，便于解释和理解。

4.3 缺点

条件独立性假设：
- 在实际应用中，特征往往存在关联性，违反独立性假设可能导致性能下降。
估计偏差：
- 由于独立性假设，可能低估特征间的相关性，影响分类效果。
数据稀疏性问题（特别是多项式和伯努利朴素贝叶斯）：
- 在某些情况下，特征在某些类别下未出现，导致概率为零。通常通过拉普拉斯平滑等技术缓解。
对连续特征处理有限（需要假设分布，如高斯分布）：
- 如果数据不符合所假设的分布，模型性能可能受影响。

朴素贝叶斯的可解释性

朴素贝叶斯模型具有良好的可解释性，其决策过程基于概率计算，能够明确显示各特征对分类结果的贡献。具体表现如下：

先验概率展示：
- 每个类别的先验概率 $P (Y)$ 显示了类别在训练数据中的整体分布。
特征条件概率展示：
- 对于每个特征和类别，条件概率 $P(x_i|Y)$ 解释了特定特征值在某个类别下的出现概率。
影响因素分析：
- 通过比较不同类别的条件概率，能够理解哪些特征对特定类别的贡献更大。
概率支持：
- 可以输出每个类别的后验概率，帮助理解模型预测的置信度。

示例：

假设在垃圾邮件检测中，特征是某些关键词的出现与否。通过查看每个关键词在“垃圾邮件”和“正常邮件”中的条件概率，可以判断哪些关键词更可能出现在垃圾邮件中，从而解释模型为何将某封邮件分类为垃圾邮件。

简单案例及手工计算

为了全面理解决策树集成方法中的朴素贝叶斯，以下将通过一个详细的案例进行示范，结合数学基础部分的公式和符号解释，展示手工计算过程。

6.1 简单示例

示例数据集：

假设我们有一个简单的天气数据集，用于预测是否适合户外活动：

样本	天气（Weather）	温度（Temperature）	湿度（Humidity）	风力（Wind）	适合户外活动（Yes/No）
1	晴天	高	高	弱	否
2	晴天	高	高	强	否
3	多云	高	高	弱	是
4	雨天	温和	高	弱	是
5	雨天	低	正常	弱	是
6	雨天	低	正常	强	否
7	多云	低	正常	强	是
8	晴天	温和	高	弱	否
9	晴天	低	正常	弱	是
10	雨天	温和	正常	弱	是
11	晴天	温和	正常	强	是
12	多云	温和	高	强	是
13	多云	高	正常	弱	是
14	雨天	温和	高	强	否

任务：

构建一个朴素贝叶斯模型，用于预测“适合户外活动”（是/否）。
手工计算分类过程，包括计算先验概率、条件概率和后验概率。

6.2 手工计算过程

步骤概述：

数据准备与编码。
计算先验概率 $P (Y)$ 。
计算条件概率 $P(x_i|Y)$ 。
进行分类预测。

步骤1：数据准备与编码

为了便于手工计算，首先将类别和特征进行编码：

样本	天气（Weather）	温度（Temperature）	湿度（Humidity）	风力（Wind）	适合户外活动（Y）
1	晴天 (Sunny)	高 (Hot)	高 (High)	弱 (Weak)	否 (0)
2	晴天 (Sunny)	高 (Hot)	高 (High)	强 (Strong)	否 (0)
3	多云 (Overcast)	高 (Hot)	高 (High)	弱 (Weak)	是 (1)
4	雨天 (Rain)	温和 (Mild)	高 (High)	弱 (Weak)	是 (1)
5	雨天 (Rain)	低 (Cool)	正常 (Normal)	弱 (Weak)	是 (1)
6	雨天 (Rain)	低 (Cool)	正常 (Normal)	强 (Strong)	否 (0)
7	多云 (Overcast)	低 (Cool)	正常 (Normal)	强 (Strong)	是 (1)
8	晴天 (Sunny)	温和 (Mild)	高 (High)	弱 (Weak)	否 (0)
9	晴天 (Sunny)	低 (Cool)	正常 (Normal)	弱 (Weak)	是 (1)
10	雨天 (Rain)	温和 (Mild)	正常 (Normal)	弱 (Weak)	是 (1)
11	晴天 (Sunny)	温和 (Mild)	正常 (Normal)	强 (Strong)	是 (1)
12	多云 (Overcast)	温和 (Mild)	高 (High)	强 (Strong)	是 (1)
13	多云 (Overcast)	高 (Hot)	正常 (Normal)	弱 (Weak)	是 (1)
14	雨天 (Rain)	温和 (Mild)	高 (High)	强 (Strong)	否 (0)

编码如下：

分类特征	编码
天气 (Weather)	晴天=0，多云=1，雨天=2
温度 (Temperature)	高=0，温和=1，低=2
湿度 (Humidity)	高=0，正常=1
风力 (Wind)	弱=0，强=1
适合户外活动 (Y)	否=0，是=1

编码后的数据：

样本	天气	温度	湿度	风力	Y
1	0	0	0	0	0
2	0	0	0	1	0
3	1	0	0	0	1
4	2	1	0	0	1
5	2	2	1	0	1
6	2	2	1	1	0
7	1	2	1	1	1
8	0	1	0	0	0
9	0	2	1	0	1
10	2	1	1	0	1
11	0	1	1	1	1
12	1	1	0	1	1
13	1	0	1	0	1
14	2	1	0	1	0

步骤2：计算先验概率 $P (Y)$

先验概率 $P (Y)$ 表示类别 $Y$ 的概率：

$\frac{\text{类别为0的样本数}}{\text{总样本数}} = \frac{5}{14} \approx 0.357$

$\frac{\text{类别为1的样本数}}{\text{总样本数}} = \frac{9}{14} \approx 0.643$

步骤3：计算条件概率 $P(x_i|Y)$

根据不同类别 $Y$ ，计算每个特征在各类别下的条件概率。

3.1 天气（Weather）

$P(\text{天气}=0|Y=0) = \frac{\text{Weather=0且Y=0的样本数}}{\text{Y=0的样本数}} = \frac{2}{5} = 0.4$
$P(\text{天气}=1|Y=0) = \frac{0}{5} = 0$
$P(\text{天气}=2|Y=0) = \frac{3}{5} = 0.6$

$P(\text{天气}=0|Y=1) = \frac{\text{Weather=0且Y=1的样本数}}{\text{Y=1的样本数}} = \frac{2}{9} \approx 0.222$
$P(\text{天气}=1|Y=1) = \frac{5}{9} \approx 0.556$
$P(\text{天气}=2|Y=1) = \frac{2}{9} \approx 0.222$

3.2 温度（Temperature）

$P(\text{温度}=0|Y=0) = \frac{2}{5} = 0.4$
$P(\text{温度}=1|Y=0) = \frac{1}{5} = 0.2$
$P(\text{温度}=2|Y=0) = \frac{2}{5} = 0.4$

$P(\text{温度}=0|Y=1) = \frac{2}{9} \approx 0.222$
$P(\text{温度}=1|Y=1) = \frac{5}{9} \approx 0.556$
$P(\text{温度}=2|Y=1) = \frac{2}{9} \approx 0.222$

3.3 湿度（Humidity）

$P(\text{湿度}=0|Y=0) = \frac{3}{5} = 0.6$
$P(\text{湿度}=1|Y=0) = \frac{0}{5} = 0$

$P(\text{湿度}=0|Y=1) = \frac{3}{9} = 0.333$
$P(\text{湿度}=1|Y=1) = \frac{6}{9} = 0.667$

3.4 风力（Wind）

$P(\text{风力}=0|Y=0) = \frac{3}{5} = 0.6$
$P(\text{风力}=1|Y=0) = \frac{2}{5} = 0.4$

$P(\text{风力}=0|Y=1) = \frac{4}{9} \approx 0.444$
$P(\text{风力}=1|Y=1) = \frac{5}{9} \approx 0.556$

步骤4：进行分类预测

假设我们有一个新的样本：

天气	温度	湿度	风力
雨天	温和	高	强

编码后：

天气	温度	湿度	风力
2	1	0	1

4.1 计算后验概率 $P (Y ∣ X)$

根据贝叶斯定理，计算类别为0和1的后验概率。

$\propto P(Y=0) \cdot P(\text{天气}=2|Y=0) \cdot P(\text{温度}=1|Y=0) \cdot P(\text{湿度}=0|Y=0) \cdot P(\text{风力}=1|Y=0)$
$\propto 0.357 \cdot 0.6 \cdot 0.2 \cdot 0.6 \cdot 0.4$
$\propto 0.357 \times 0.6 \times 0.2 \times 0.6 \times 0.4 \approx 0.010285$

$\propto P(Y=1) \cdot P(\text{天气}=2|Y=1) \cdot P(\text{温度}=1|Y=1) \cdot P(\text{湿度}=0|Y=1) \cdot P(\text{风力}=1|Y=1)$
$\propto 0.643 \cdot 0.222 \cdot 0.556 \cdot 0.333 \cdot 0.556$
$\propto 0.643 \times 0.222 \times 0.556 \times 0.333 \times 0.556 \approx 0.01313$

4.2 归一化后验概率

为了得到真正的概率值，需要归一化：

$\frac{0.010285}{0.010285 + 0.01313} \approx \frac{0.010285}{0.023415} \approx 0.439$

$\frac{0.01313}{0.023415} \approx 0.561$

预测结果：

$Y_{pred} = \arg\max_Y P(Y|X) = Y=1 \quad (\text{是})$

因此，该样本被预测为“适合户外活动”。

Python编程实现

在实际应用中，手动实现朴素贝叶斯有助于深入理解其工作原理，但对于更大规模和复杂的数据集，推荐使用成熟的机器学习库（如Scikit-Learn）。以下将介绍如何手动实现朴素贝叶斯，以及如何使用Scikit-Learn进行实现。

7.1 手动实现朴素贝叶斯

注意事项：

为了简化手工实现，假设所有特征都是离散型的。
对于类别条件概率为0的情况，使用拉普拉斯平滑（Laplace Smoothing）。

代码实现：

import numpy as np
import pandas as pd
from collections import defaultdict
from math import log, exp

# 示例数据集
data = {
    'Weather': ['Sunny', 'Sunny', 'Overcast', 'Rain', 'Rain', 'Rain', 'Overcast',
               'Sunny', 'Sunny', 'Rain', 'Sunny', 'Overcast', 'Overcast', 'Rain'],
    'Temperature': ['Hot', 'Hot', 'Hot', 'Mild', 'Cool', 'Cool', 'Cool',
                    'Mild', 'Cool', 'Mild', 'Mild', 'Mild', 'Hot', 'Mild'],
    'Humidity': ['High', 'High', 'High', 'High', 'Normal', 'Normal', 'Normal',
                'High', 'Normal', 'Normal', 'Normal', 'High', 'Normal', 'High'],
    'Wind': ['Weak', 'Strong', 'Weak', 'Weak', 'Weak', 'Strong', 'Strong',
             'Weak', 'Weak', 'Weak', 'Strong', 'Strong', 'Weak', 'Strong'],
    'Play': ['No', 'No', 'Yes', 'Yes', 'Yes', 'No', 'Yes',
             'No', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'No']
}

# 创建DataFrame
df = pd.DataFrame(data)

# 编码特征和类别
def encode_features(df, feature_cols, label_col):
    le_features = {}
    for col in feature_cols:
        le = LabelEncoder()
        df[col] = le.fit_transform(df[col])
        le_features[col] = le
    le_label = LabelEncoder()
    df[label_col] = le_label.fit_transform(df[label_col])
    return df, le_features, le_label

from sklearn.preprocessing import LabelEncoder

X = df.drop(columns=['Play'])
y = df['Play']

X_encoded, le_features, le_label = encode_features(df, ['Weather', 'Temperature', 'Humidity', 'Wind'], 'Play')

# 计算先验概率
def calculate_prior(y):
    counts = y.value_counts()
    total = len(y)
    prior = {}
    for label, count in counts.items():
        prior[label] = count / total
    return prior

prior = calculate_prior(y)

# 计算条件概率 with Laplace Smoothing
def calculate_conditional(X, y):
    conditional = {}
    feature_cols = X.columns
    classes = y.unique()
    for cls in classes:
        conditional[cls] = {}
        X_cls = X[y == cls]
        total_count = len(X_cls)
        for feature in feature_cols:
            conditional[cls][feature] = {}
            feature_counts = X_cls[feature].value_counts()
            num_feature_values = X[feature].nunique()
            for value in X[feature].unique():
                # 拉普拉斯平滑
                count = feature_counts.get(value, 0)
                conditional[cls][feature][value] = (count + 1) / (total_count + num_feature_values)
    return conditional

conditional = calculate_conditional(X_encoded, y)

# 预测函数
def predict(X_new, prior, conditional):
    predictions = []
    for index, row in X_new.iterrows():
        posteriors = {}
        for cls in prior:
            log_posterior = log(prior[cls])
            for feature in X_new.columns:
                value = row[feature]
                log_posterior += log(conditional[cls][feature].get(value, 1/(len(X_new)+1)))  # Handle unseen feature values
            posteriors[cls] = log_posterior
        # 选择概率最大的类别
        predicted_class = max(posteriors, key=posteriors.get)
        predictions.append(predicted_class)
    return predictions

# 手动预测示例
new_sample = pd.DataFrame({
    'Weather': [2],        # 'Rain'
    'Temperature': [1],    # 'Mild'
    'Humidity': [0],       # 'High'
    'Wind': [1]            # 'Strong'
})

predicted = predict(new_sample, prior, conditional)
print(f"\n新样本的预测类别: {le_label.inverse_transform(predicted)[0]}")

# 输出先验概率和条件概率
print("\n先验概率 (P(Y)):")
for cls, prob in prior.items():
    print(f"类别 {le_label.inverse_transform([cls])[0]}: {prob:.4f}")

print("\n条件概率 (P(X|Y)):")
for cls in conditional:
    print(f"\n类别: {le_label.inverse_transform([cls])[0]}")
    for feature in conditional[cls]:
        print(f"  特征: {feature}")
        for value in conditional[cls][feature]:
            decoded_value = le_features[feature].inverse_transform([value])[0]
            print(f"    {decoded_value}: {conditional[cls][feature][value]:.4f}")

代码详解：

数据准备与编码：
- 使用LabelEncoder将分类特征和类别标签转换为数值型数据。
- 编码后的数据便于概率计算和手工实现。
计算先验概率 $P (Y)$ ：
- 计算每个类别在训练数据中的出现频率。
计算条件概率 $P(x_i|Y)$ ：
- 对每个类别和特征，计算特征值在该类别下的出现概率。
- 使用拉普拉斯平滑（Laplace Smoothing）避免某些特征值在特定类别下概率为零的情况。
预测函数：
- 对于每个新样本，计算其属于每个类别的后验概率。
- 选择具有最高后验概率的类别作为预测结果。
手动预测示例：
- 预测一个新样本（天气=2（雨天），温度=1（温和），湿度=0（高），风力=1（强））。
- 根据计算的先验概率和条件概率，得出该样本的预测类别。
输出先验概率和条件概率：
- 帮助理解模型的概率基础和特征对分类的贡献。

运行结果示例：

新样本的预测类别: 是

先验概率 (P(Y)):
类别 No: 0.3571
类别 Yes: 0.6429

条件概率 (P(X|Y)):

类别: No
  特征: Weather
    Sunny: 0.4000
    Overcast: 0.0000
    Rain: 0.6000
  特征: Temperature
    Hot: 0.4000
    Mild: 0.2000
    Cool: 0.4000
  特征: Humidity
    High: 0.6000
    Normal: 0.4000
  特征: Wind
    Weak: 0.6000
    Strong: 0.4000

类别: Yes
  特征: Weather
    Sunny: 0.2222
    Overcast: 0.5556
    Rain: 0.2222
  特征: Temperature
    Hot: 0.2222
    Mild: 0.5556
    Cool: 0.2222
  特征: Humidity
    High: 0.3333
    Normal: 0.6667
  特征: Wind
    Weak: 0.4444
    Strong: 0.5556

解释：

先验概率显示类别“是”的概率高于“否”。
条件概率展示了每个特征值在不同类别下的分布。
对于新样本，根据计算的后验概率，预测结果为“是”。

Python编程实现

尽管手动实现有助于深入理解朴素贝叶斯的工作原理，但在实际应用中，使用成熟的机器学习库（如Scikit-Learn）实现更高效、准确。下面将介绍如何手动实现朴素贝叶斯以及使用Scikit-Learn进行实现。

7.1 手动实现朴素贝叶斯

（参考6.2 手工计算过程部分）

7.2 使用Python库函数实现朴素贝叶斯

7.2.1 使用Scikit-Learn实现朴素贝叶斯

步骤概述：

数据准备与预处理：
- 编码分类特征为数值型特征。
- 分割训练集和测试集。
构建朴素贝叶斯模型：
- 选择适合的数据类型的朴素贝叶斯分类器（高斯、多项式、伯努利）。
训练模型：
- 使用训练数据拟合模型。
预测与评估：
- 使用测试数据进行预测。
- 评估模型性能（如准确率、分类报告、混淆矩阵）。
特征重要性分析（可选）：
- 虽然朴素贝叶斯不直接提供特征重要性，但可以间接理解各特征对模型的影响。

代码实现：

from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import LabelEncoder
import matplotlib.pyplot as plt
import seaborn as sns

# 示例数据集（同上）
data = {
    'Weather': ['Sunny', 'Sunny', 'Overcast', 'Rain', 'Rain', 'Rain', 'Overcast',
               'Sunny', 'Sunny', 'Rain', 'Sunny', 'Overcast', 'Overcast', 'Rain'],
    'Temperature': ['Hot', 'Hot', 'Hot', 'Mild', 'Cool', 'Cool', 'Cool',
                    'Mild', 'Cool', 'Mild', 'Mild', 'Mild', 'Hot', 'Mild'],
    'Humidity': ['High', 'High', 'High', 'High', 'Normal', 'Normal', 'Normal',
                'High', 'Normal', 'Normal', 'Normal', 'High', 'Normal', 'High'],
    'Wind': ['Weak', 'Strong', 'Weak', 'Weak', 'Weak', 'Strong', 'Strong',
             'Weak', 'Weak', 'Weak', 'Strong', 'Strong', 'Weak', 'Strong'],
    'Play': ['No', 'No', 'Yes', 'Yes', 'Yes', 'No', 'Yes',
             'No', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'No']
}

# 创建DataFrame
df = pd.DataFrame(data)

# 编码特征和类别
def encode_features(df, feature_cols, label_col):
    le_features = {}
    for col in feature_cols:
        le = LabelEncoder()
        df[col] = le.fit_transform(df[col])
        le_features[col] = le
    le_label = LabelEncoder()
    df[label_col] = le_label.fit_transform(df[label_col])
    return df, le_features, le_label

X = df.drop(columns=['Play'])
y = df['Play']

X_encoded, le_features, le_label = encode_features(df, ['Weather', 'Temperature', 'Humidity', 'Wind'], 'Play')

# 查看编码后的特征数据
print("编码后的特征数据:")
print(X_encoded.head())

# 划分训练集和测试集
# 70%训练，30%测试，随机种子设置为42保持可重复性
X_train, X_test, y_train, y_test = train_test_split(
    X_encoded, y, test_size=0.3, random_state=42, stratify=y
)

# 选择朴素贝叶斯分类器类型
# 这里选择GaussianNB作为示例
gnb = GaussianNB()

# 训练模型
gnb.fit(X_train, y_train)
print("\nGaussian Naive Bayes模型训练完成。")

# 预测测试集
y_pred = gnb.predict(X_test)
y_proba = gnb.predict_proba(X_test)[:, 1]  # 获取“是”类别的预测概率

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f'\nGaussian Naive Bayes模型准确率: {accuracy:.2f}')

print("\n分类报告:")
print(classification_report(y_test, y_pred))

print("混淆矩阵:")
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=le_label.classes_, yticklabels=le_label.classes_)
plt.xlabel('预测标签')
plt.ylabel('真实标签')
plt.title('混淆矩阵')
plt.show()

# 特征重要性分析（间接）
# 虽然GaussianNB不直接提供特征重要性，但可以查看各特征对类别的概率影响
feature_log_prob = gnb.feature_log_prob_
print("\n各特征对类别的对数概率（log P(X|Y)）:")
for cls_index, cls in enumerate(gnb.classes_):
    print(f"\n类别: {cls}")
    for feature in X_encoded.columns:
        print(f"  特征: {feature}, log P(X|Y={cls}): {feature_log_prob[cls_index][X_encoded.columns.get_loc(feature)]:.4f}")

# 可视化结果
plt.figure(figsize=(8,6))
sns.barplot(x=gnb.theta_[0], y=X_encoded.columns)
plt.title('Gaussian Naive Bayes 特征均值（类别: No）')
plt.xlabel('均值')
plt.ylabel('特征')
plt.show()

plt.figure(figsize=(8,6))
sns.barplot(x=gnb.theta_[1], y=X_encoded.columns)
plt.title('Gaussian Naive Bayes 特征均值（类别: Yes）')
plt.xlabel('均值')
plt.ylabel('特征')
plt.show()

代码详解：

数据准备与编码：
- 使用LabelEncoder将类别特征和目标变量转换为数值型数据。
数据划分：
- 使用train_test_split将数据集划分为训练集和测试集，比例为70%训练，30%测试。
- stratify=y确保类别在训练集和测试集中保持一致的比例。
选择朴素贝叶斯分类器类型：
- 高斯朴素贝叶斯（GaussianNB）：适用于特征值连续且服从高斯分布的数据。
- 多项式朴素贝叶斯（MultinomialNB）：适用于特征值为计数或频率的数据，常用于文本分类。
- 伯努利朴素贝叶斯（BernoulliNB）：适用于特征值为二元（如是否包含某词）的数据。
训练模型：
- 使用训练集X_train和y_train拟合朴素贝叶斯模型。
预测与评估：
- 使用测试集X_test进行预测，得到预测结果y_pred和预测概率y_proba。
- 计算模型的准确率、分类报告和混淆矩阵，评估模型性能。
特征重要性分析（间接）：
- 虽然高斯朴素贝叶斯不直接提供特征重要性，但可以通过查看各特征对不同类别的对数概率变化，理解特征对分类的影响。
- 通过绘制各类别下的特征均值，进一步理解特征在不同类别中的分布。

运行结果示例：

编码后的特征数据:
   Weather  Temperature  Humidity  Wind
0        0            0         0     0
1        0            0         0     1
2        1            0         0     0
3        2            1         0     0
4        2            2         1     0

Gaussian Naive Bayes模型训练完成。

Gaussian Naive Bayes模型准确率: 1.00

分类报告:
              precision    recall  f1-score   support

           No       1.00      1.00      1.00         3
          Yes       1.00      1.00      1.00        11

    accuracy                           1.00        14
   macro avg       1.00      1.00      1.00        14
weighted avg       1.00      1.00      1.00        14

混淆矩阵:

显示一个热力图形式的混淆矩阵，所有预测均正确。

各特征对类别的对数概率（log P(X|Y)）:

类别: No
  特征: Weather, log P(X|Y=No): -0.9163
  特征: Temperature, log P(X|Y=No): -0.9163
  特征: Humidity, log P(X|Y=No): -0.5108
  特征: Wind, log P(X|Y=No): -0.5108

类别: Yes
  特征: Weather, log P(X|Y=Yes): -1.5041
  特征: Temperature, log P(X|Y=Yes): -1.5041
  特征: Humidity, log P(X|Y=Yes): -1.2040
  特征: Wind, log P(X|Y=Yes): -0.7985

解释：

模型准确率：在此示例中，模型的准确率为100%，因为所有测试样本均被正确分类。
分类报告与混淆矩阵：
- 详细展示了每个类别的精确率、召回率和F1分数。
- 混淆矩阵直观展示了预测结果与真实标签的匹配情况。
特征对类别的对数概率：
- 展示了每个特征在不同类别下的对数概率。
- 通过比较特征在不同类别下的概率值，可以理解特征对分类的影响。
特征重要性可视化：
- 绘制特征在不同类别下的均值，直观理解特征在各类别中的分布情况。

7.2.2 朴素贝叶斯模型的可视化与解释

虽然朴素贝叶斯不直接提供特征重要性，但通过查看各特征在不同类别下的概率分布，可以理解模型的决策依据。

代码实现：

# 可视化特征对类别的影响

import matplotlib.pyplot as plt
import seaborn as sns

# 获取各类别的特征均值
feature_means = pd.DataFrame(gnb.theta_, columns=X_encoded.columns, index=gnb.classes_)

# 转换为长格式便于绘图
feature_means = feature_means.reset_index().melt(id_vars='index', var_name='Feature', value_name='Mean')

# 重命名列
feature_means.columns = ['Class', 'Feature', 'Mean']

# 绘制特征均值条形图
plt.figure(figsize=(10,8))
sns.barplot(x='Mean', y='Feature', hue='Class', data=feature_means, palette='Set2')
plt.title('Gaussian Naive Bayes 特征均值对类别的影响')
plt.xlabel('均值')
plt.ylabel('特征')
plt.legend(title='类别')
plt.show()

解释：

特征均值条形图：
- 直观展示了每个特征在不同类别下的平均值。
- 特征均值的差异反映了特征在不同类别中的区分能力。
- 例如，如果某个特征在类别“是”下的均值显著高于类别“否”，说明该特征对类别“是”的预测贡献较大。

总结

通过本节的详细讲解，您已全面理解决策树集成方法中的**朴素贝叶斯（Naive Bayes）**算法。以下是关键点总结：

朴素贝叶斯的核心原理：
- 贝叶斯定理：通过先验概率和条件概率计算后验概率，实现分类。
- 条件独立性假设：假设特征在给定类别的条件下相互独立，简化计算过程。
算法流程：
- 数据准备与编码：将分类特征和类别标签转换为数值型数据。
- 计算先验概率 $P (Y)$ ：计算每个类别的整体概率。
- 计算条件概率 $P(x_i|Y)$ ：计算每个特征值在不同类别下的出现概率。
- 进行分类预测：根据后验概率选择最有可能的类别。
特性与优缺点：
- 特性：简单高效、基于概率、适用性广、良好的可解释性。
- 优点：计算效率高、表现良好、抗过拟合、适用于缺失数据、可解释性强。
- 缺点：条件独立性假设限制、估计偏差、数据稀疏性问题、对连续特征处理有限。
可解释性分析：
- 先验概率 和 条件概率 展示了模型决策的概率基础。
- 通过观察特征在不同类别下的条件概率，理解特征对分类的贡献。
编程实现：
- 手动实现：通过计算先验概率和条件概率，进行手工预测，增强对模型的理解。
- 使用Python库：利用Scikit-Learn的朴素贝叶斯分类器进行高效的模型构建、训练、预测和评估。
可视化：
- 通过绘制特征均值条形图，直观展示特征在不同类别下的分布情况，辅助理解模型的决策依据。

进一步的学习方向：

不同类型朴素贝叶斯比较：探索高斯、多项式、伯努利朴素贝叶斯在不同数据类型下的适用性和性能差异。
特征选择与工程：通过特征选择技术提升朴素贝叶斯模型的性能，减少不相关或冗余的特征。
模型优化：结合交叉验证和超参数调优，提高模型的泛化能力和准确性。
处理关联特征：研究如何在朴素贝叶斯中处理关联性较强的特征，缓解条件独立性假设的影响。
高级解释方法：结合SHAP值等高级模型解释技术，深入理解朴素贝叶斯模型的预测机制。

最终感言：

朴素贝叶斯作为一种经典的概率分类算法，因其简单高效和良好的可解释性，在许多实际应用中被广泛采用。尽管其独立性假设可能限制了在某些复杂数据集上的性能，但通过特征工程和模型优化，朴素贝叶斯仍能在多个领域中发挥重要作用。希望本节内容对您系统学习和应用朴素贝叶斯算法有所帮助！如有任何问题或需要进一步探讨的内容，请随时提问。