python 实现gaussian naive bayes高斯贝叶斯算法

luthane

于 2024-09-30 09:07:51 发布

阅读量824

点赞数 19

分类专栏： python_pyqt_pyside 文章标签： python 算法人工智能

本文链接：https://blog.csdn.net/u010634139/article/details/142648660

版权

python_pyqt_pyside 专栏收录该内容

125 篇文章 2 订阅

订阅专栏

gaussian naive bayes高斯贝叶斯算法介绍

高斯朴素贝叶斯（Gaussian Naive Bayes, GNB）算法是一种基于高斯分布（也称为正态分布）的朴素贝叶斯分类器。该算法在处理特征值为连续型且近似服从正态分布的数据集时表现出色。以下是关于高斯朴素贝叶斯算法的详细解释：

核心思想

高斯朴素贝叶斯算法的核心思想是统计每个类别下每个特征的均值和方差，并假设每个特征的值均服从高斯分布。给定特征的值，可以计算该值属于某个类别的概率。

假设条件

特征条件独立性假设：朴素贝叶斯算法的一个基本假设是特征之间相互独立，即给定类别下，一个特征的出现不会影响其他特征的出现。这种假设在现实中往往不成立，但在许多情况下，这种简化的假设仍然能够提供良好的分类性能。
高斯分布假设：高斯朴素贝叶斯进一步假设每个类别的数据特征都遵循高斯分布（正态分布）。因此，可以为每个类别学习一个高斯分布，即估计每个特征的均值和方差。

计算公式

对于新样本，使用高斯概率密度函数计算其在每个类别下的概率。高斯概率密度函数的公式为：

$P(x_i|y_c) = \frac{1}{\sqrt{2\pi\sigma_c^2}} \exp\left(-\frac{(x_i - \mu_c)^2}{2\sigma_c^2}\right) ]$

其中， $x_i)$ 表示新样本的第 $(i)$ 个特征值， $y_c)$ 表示类别 $(c)$ ， $(\mu_c)$ 和 $(\sigma_c^2)$ 分别表示在类别 $(c)$ 下，第 $(i)$ 个特征的均值和方差。

优缺点

优点
简单高效：高斯朴素贝叶斯模型简单，计算效率高，尤其适用于特征维度较高的数据集。
易于实现：算法原理清晰，易于理解和实现。
在数据较少的情况下仍然有效：可以处理分类问题，特别是在数据较少时也能取得较好的效果。
缺点
分类效果不一定很高：特征独立性假设会简化模型，但可能会牺牲一定的分类准确率。

应用场景

高斯朴素贝叶斯算法适用于特征值近似正态分布的情况，例如身高、体重等连续型特征的分类问题。此外，它在文本分类、垃圾邮件过滤、情感分析等领域也有广泛应用。

gaussian naive bayes高斯贝叶斯算法python实现样例

下面是Python实现高斯朴素贝叶斯（Gaussian Naive Bayes）算法的示例代码：

import numpy as np
from sklearn.naive_bayes import GaussianNB

# 定义训练数据
X_train = np.array([[1, 2, 1], [2, 3, 0], [3, 1, 1], [1, 3, 0]])
y_train = np.array([0, 1, 1, 0])

# 创建高斯朴素贝叶斯分类器对象
clf = GaussianNB()

# 训练分类器
clf.fit(X_train, y_train)

# 定义测试数据
X_test = np.array([[1, 1, 0], [2, 2, 1]])

# 预测测试数据的分类
y_pred = clf.predict(X_test)

print(y_pred)