贝叶斯分类器实验

nandijimo

于 2024-05-14 18:05:08 发布

阅读量1.7k

点赞数 34

文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/nandijimo/article/details/138862690

版权

一、算法概述

1.1算法简介

对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。朴素贝叶斯分类器是一类基于贝叶斯定理的简单概率分类算法，它是一种有监督学习算法，常用于文本分类、垃圾邮件过滤、情感分析等问题。朴素贝叶斯分类器假设特征之间相互独立（条件独立性假设），这是“朴素”（Naive）之处，因为在现实情况中，特征之间可能存在相关性。

1.2先验概率、后验概率和条件概率

P(cj)代表还没有训练模型之前，根据历史数据/经验估算cj 拥有的初始概率。P(cj)常被称为cj的先验概率，它反映了cj的概率分布，该分布独立于样本。通常可以用样例中属于cj的样例数|cj|比上总样例数|D|来近似，即：

$P\left ( cj \right )=\frac{\left | cj \right |}{\left | D \right |}$

已知两个独立事件A和B，事件B发生的前提下，事件A发生的概率可以表示为P(A|B)，即：

$P\left ( A\mid B \right )= \frac{P\left ( A,B \right )}{P(B)}= \frac{P(A)*P(B\mid A)}{P(B)}$

$P(A,B)=P(B)*P(A\mid B)=P(A)*P(B\mid A)$

其中，联合概率表示两个事件共同发生的概率，例事件A与事件B同时发生，表示为P(A,B)或P(AB)。

根据条件概率和全概率公式，可以得到贝叶斯公式如下：

$P(A\mid B)=P(A)\frac{P(B\mid A)}{P(B)}$

$P(A_{i}\mid B)=P(A_{i})\frac{P(B\mid A_{i})}{\sum_{i=}^{n}P(B\mid A_{i})P(A_{i})}$

P(A)为先验概率，即在B事件发生之前，对A事件概率的一个判断；

P ( A ∣ B ) 称为后验概率，即在B事件发生之后，对A事件概率的重新评估；

P ( B ∣ A ) /P(B) 称为可能性函数，这是一个调整因子，使得预估概率更接近真实概率。

条件概率可以理解为：后验概率 = 先验概率 × 调整因子
如果"可能性函数">1，意味着"先验概率"被增强，事件A的发生的可能性变大；
如果"可能性函数"=1，意味着B事件无助于判断事件A的可能性；
如果"可能性函数"<1，意味着"先验概率"被削弱，事件A的可能性变小。

1.3算法流程

（1）计算每个类别的先验概率，即某个样本属于某一类别的概率。在朴素贝叶斯中，先验概率可以根据样本集中每个类别的样本数计算得到。

（2）计算每个特征与目标变量之间的条件概率。这就相当于计算每个类别下的每个特征值的概率。在朴素贝叶斯中，条件概率可以使用频率来估计，即将训练集中某个类别下某个特征值出现的次数除以该类别下总的样本数。

（3）对于待预测的新样本，根据所属类别的后验概率，将其分类为概率最大的那一类。

二、实验目的和要求

实验的主要目的是掌握利用贝叶斯公式设计分类器的方法。要求能够根据贝叶斯公式，在类条件概率密度为正态分布时给出具体的判别函数表达式，并使用这个判别函数来设计分类器。同时，实验还需要分别做出协方差相同和不同两种情况下的判别分类边界。

三、实验环境、内容和方法

实验环境通常包括一台计算机和相应的编程软件，如MATLAB或Python等。实验内容主要包括以下几个步骤：

3.1数据生成：随机生成两类样本数据，每类样本包含若干个（如20个）样本点，每个样本点具有两个特征。假设每类样本点服从二维正态分布。

3.2参数估计：根据生成的样本数据，估计每类样本的均值和协方差。

3.3判别函数设计：根据贝叶斯公式和估计得到的参数，设计判别函数。该函数用于判断一个未知样本点属于哪一类。

3.4分类边界确定：在协方差相同和不同的情况下，分别计算分类边界。分类边界是判别函数值为零的点组成的曲线或直线。

3.5结果展示：通过图形方式展示分类边界和样本点的分布情况。

实验方法主要包括数学计算、编程实现和图形展示等步骤。在编程实现过程中，需要编写代码来生成样本数据、估计参数、设计判别函数和计算分类边界等。

四、实验基本原理

贝叶斯分类器是基于贝叶斯定理的一种分类方法。它利用已知的先验概率和条件概率来计算后验概率，即一个未知样本点属于某一类的概率。然后，选择具有最大后验概率的类作为该样本点所属的类。贝叶斯分类器具有分类错误概率最小或在预先给定代价的情况下平均风险最小的优点。

五、代码实现

import numpy as np  
from sklearn.naive_bayes import GaussianNB  
from sklearn.preprocessing import LabelEncoder  
from sklearn.model_selection import train_test_split  
from sklearn.metrics import accuracy_score, classification_report  
  
# 加载数据集  
def loadDataSet():  
    dataSet=[['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.697, 0.460, '好瓜'],
             ['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.774, 0.376, '好瓜'],
             ['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.634, 0.264, '好瓜'],
             ['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.608, 0.318, '好瓜'],
             ['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.556, 0.215, '好瓜'],            
             ['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.403, 0.237, '好瓜'],               
             ['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', 0.481, 0.149, '好瓜'],                
             ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', 0.437, 0.211, '好瓜'],
             ['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', 0.666, 0.091, '坏瓜'],
             ['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', 0.243, 0.267, '坏瓜'],
             ['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', 0.245, 0.057, '坏瓜'],
             ['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', 0.343, 0.099, '坏瓜'],
             ['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', 0.639, 0.161, '坏瓜'],  
             ['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', 0.657, 0.198, '坏瓜'],
             ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.360, 0.370, '坏瓜'],
             ['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', 0.593, 0.042, '坏瓜'],
             ['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', 0.719, 0.103, '坏瓜']]
    return dataSet  
  
# 数据预处理：将非数值特征转换为数值特征  
def preprocess_data(dataSet):  
    # 假设第一个到第六个特征是类别型特征，第七个和第八个特征是数值型特征  
    # 使用LabelEncoder对类别型特征进行编码  
    label_encoders = []  
    for i in range(6):  
        le = LabelEncoder()  
        dataSet[:, i] = le.fit_transform(dataSet[:, i])  
        label_encoders.append(le)  # 保存编码器以便后续使用（如果需要）  
  
    # 将数据集转换为numpy数组（如果它还不是）  
    dataSet = np.array(dataSet)  
  
    # 分离特征和标签  
    X = dataSet[:, :-1].astype(float)  # 特征  
    y = dataSet[:, -1].astype(int)     # 标签（好瓜为1，坏瓜为0）  
    return X, y, label_encoders  # 返回特征和标签，以及编码器（如果需要）  
  
# 加载并预处理数据  
dataSet = loadDataSet()  
X, y, _ = preprocess_data(dataSet)  
  
# 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  
  
# 创建朴素贝叶斯分类器对象  
gnb = GaussianNB()  
  
# 使用训练集训练分类器  
gnb.fit(X_train, y_train)  
  
# 使用测试集进行预测  
y_pred = gnb.predict(X_test)  
  
# 评估模型  
accuracy = accuracy_score(y_test, y_pred)  
print("朴素贝叶斯分类器的准确率:", accuracy)  
  
# 输出分类报告  
print(classification_report(y_test, y_pred))

六、实验步骤和结果

实验步骤包括数据生成、参数估计、判别函数设计、分类边界确定和结果展示等。在实验过程中，需要记录每个步骤的输出和结果。最后，将实验结果以表格或图形的形式进行展示和分析。

实验结果通常包括分类边界的图形展示、分类准确率等指标的计算和评估。通过对比不同实验条件下的结果，可以分析贝叶斯分类器的性能和优劣。

七、结论与展望

通过对贝叶斯分类器实验的介绍和分析，可以得出以下结论：

贝叶斯分类器是一种基于统计原理的分类方法，具有分类错误概率最小或在预先给定代价的情况下平均风险最小的优点。
实验结果表明，在协方差相同和不同的情况下，贝叶斯分类器都能够有效地确定分类边界并对未知样本点进行分类。
在实际应用中，贝叶斯分类器可以用于各种分类问题，如文本分类、图像识别等。然而，它也存在一些局限性，如对特征之间的独立性假设过于简单等。

展望未来，可以进一步探索和研究贝叶斯分类器的改进和优化方法，以提高其分类性能和适用范围。同时，也可以将贝叶斯分类器与其他机器学习算法相结合，形成更加复杂和强大的分类模型。

nandijimo

关注

34
点赞
踩
53

收藏

觉得还不错? 一键收藏
0
评论
贝叶斯分类器实验

对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。朴素贝叶斯分类器是一类基于贝叶斯定理的简单概率分类算法，它是一种有监督学习算法，常用于文本分类、垃圾邮件过滤、情感分析等问题。朴素贝叶斯分类器假设特征之间相互独立（条件独立性假设），这是“朴素”（Naive）之处，因为在现实情况中，特征之间可能存在相关性。
复制链接

扫一扫