机器学习之朴素贝叶斯算法

一、朴素贝叶斯介绍

1.概念

朴素贝叶斯是一种基于贝叶斯定理与特征条件独立假设的分类方法。其中,“朴素”指的是条件独立,意味着在给定目标值时,各个属性之间相互独立。这种方法在分类时不是直接返回分类结果,而是返回属于某个分类的概率。例如,对于文章分类问题,朴素贝叶斯会计算出每篇文章属于各个类别的概率,然后选择概率最大的类别作为文章的分类。

2.基本原理

贝叶斯定理是一种条件概率推理方法,它利用条件概率来对一些事情进行推断。在朴素贝叶斯分类中,这个定理被用来计算后验概率,即给定输入特征时某个类别的概率。特征条件独立假设意味着用于分类的特征在类别确定的情况下都是相互独立的。这个假设简化了计算过程,因为可以分别计算每个特征的概率,而不需要考虑特征之间的相关性。在进行分类时,朴素贝叶斯算法会先通过训练集学习从输入到输出的联合概率分布,然后基于这个模型输入新的数据并计算出使得后验概率最大的输出类别。它的核心思想是通过已知的训练数据集来学习特征与类别之间的联合概率分布,然后利用这个模型来预测新数据的类别。

3.优缺点

优点:

(1)朴素贝叶斯算法具有坚实的数学基础,逻辑简单,稳定性高,分类效率稳定,对于不同的数据特点,其分类性能不会有太大的差异。
(2)由于假设了属性之间的独立性,所需的参数估计较少,对缺失数据不太敏感,算法相对简单。
(3)对于小规模的数据集,朴素贝叶斯往往能有很好的表现,在数据集较大的情况下表现出较高的准确率,尤其适合处理多分类任务和增量式训练。

(4)在处理多分类任务时表现良好,适合增量式训练,尤其是当数据量超出内存时,可以一批批的进行增量训练。

缺点:

(1)朴素贝叶斯的假设属性之间相互独立在实际应用中往往不成立,这可能导致分类效果不佳,尤其在属性个数多或属性之间相关性较大时。
(2)需要知道先验概率,而先验概率的确定往往依赖于假设,假设的模型可以有很多种,因此在某些时候可能会由于假设的先验模型的原因导致预测效果不佳。
(3)由于是基于概率的分类,分类决策可能存在一定的错误率。
(4)对输入数据的表达形式很敏感,不同的数据预处理方式可能导致不同的分类结果。

二、贝叶斯决策论及基本概念介绍

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

1.贝叶斯决策论

贝叶斯决策论是一种基于贝叶斯定理的决策方法,它利用概率论的知识来进行决策。在贝叶斯决策论中,我们首先需要对可能的决策结果进行概率建模,然后根据这些概率信息来选择最优的决策。

具体来说,贝叶斯决策论包括以下几个步骤:

(1)建立模型:首先需要建立一个概率模型,包括对决策结果和可能的影响因素进行概率建模。这可以通过历史数据或专家知识来得到。

(2)计算概率:根据建立的模型,计算每个决策结果发生的概率,以及在不同情况下的概率。

(3)选择决策:根据计算得到的概率信息,选择使得期望效用最大化的决策。

(4)实施决策:根据选择的决策进行实施,并监测结果。

贝叶斯决策论在很多领域都有广泛的应用,包括机器学习、统计学、经济学等。它能够帮助人们在不确定的情况下做出最优的决策,提高决策的准确性和效率。

2.先验概率和后验概率

先验概率和后验概率是贝叶斯统计学中的重要概念,用来描述在观测到一些数据之前和之后某个事件发生的概率。

先验概率是指在观测到任何数据之前,对某个事件发生的概率的估计。它是基于以往的经验、知识或假设得出的概率。先验概率可以用来作为贝叶斯定理中的先验分布。

后验概率是指在观测到一些数据之后,对某个事件发生的概率的修正。它是基于先验概率和观测到的数据来计算的。后验概率可以通过贝叶斯定理来计算,即后验概率等于先验概率乘以似然函数,再除以边缘概率。

先验概率和后验概率在贝叶斯统计学中扮演着重要的角色,通过这两个概念,我们可以在观测到数据之前对事件的概率进行估计,并在观测到数据之后进行修正和更新。这种基于贝叶斯定理的推断方法在许多领域都有广泛的应用,如机器学习、人工智能、医学诊断等。

3.条件概率与全概率公式

条件概率是指在给定另一个事件发生的前提下,某一事件发生的概率。条件概率通常表示为P(A|B),表示在事件B发生的情况下,事件A发生的概率。

全概率公式是指在一个事件发生的所有可能的情况下,另一个事件发生的概率。全概率公式通常表示为P(A) = P(A|B1)P(B1) + P(A|B2)P(B2) + ... + P(A|Bn)P(Bn),其中B1, B2, ..., Bn是事件A的一组互斥且完备的事件。

条件概率和全概率公式在概率论和统计学中有着广泛的应用,特别是在贝叶斯统计中。它们可以帮助我们计算复杂事件的概率,并且在决策分析和风险评估等领域中发挥重要作用。

4.贝叶斯定理

贝叶斯定理是一种概率理论中的重要定理,用于计算在已知某一条件下另一条件的概率。贝叶斯定理的公式如下:

P(A|B) = P(B|A) * P(A) / P(B)

其中,P(A|B)表示在条件B下事件A发生的概率,P(B|A)表示在条件A下事件B发生的概率,P(A)和P(B)分别表示事件A和事件B发生的概率。

贝叶斯定理的核心思想是通过已知的信息来更新我们对事件发生概率的估计,从而得到更准确的结果。它在统计学、机器学习、人工智能等领域都有广泛的应用,例如在垃圾邮件过滤、医学诊断、自然语言处理等方面都可以利用贝叶斯定理来进行推断和预测。

三、朴素贝叶斯分类器具体实现

1.具体案例实现

我们选取了一个各种天气因素是否影响出门情况的数据集作为案例。该数据集包含了天气、温度、湿度、是否刮风等特征,以及一个标签表示特定的天气情况下是否出门。我们的目标是根据这些特征构建一个朴素贝叶斯分类器,以预测未来某一特定的天气因素是否建议出门。

以下是具体的数据集表格和Python代码的具体实现:
 

天气温度湿度刮风是否出门
炎热
炎热
炎热
适中
寒冷正常
寒冷正常
适中正常
适中
寒冷正常
适中正常
炎热正常
寒冷
适中正常
适中
炎热正常
适中
寒冷正常
适中
炎热正常
适中

具体代码实现:

import pandas as pd
#训练样本集
data = {
    '天气': ['晴', '晴', '阴', '雨', '雨', '雨', '阴', '晴', '晴', '雨', '晴', '雨', '阴', '雨', '阴', '晴', '阴', '雨',
             '晴', '阴'],
    '温度': ['炎热', '炎热', '炎热', '适中', '寒冷', '寒冷', '适中', '适中', '寒冷', '适中', '炎热', '寒冷', '适中',
             '适中', '炎热', '适中', '寒冷', '适中', '炎热', '适中'],
    '湿度': ['高', '高', '高', '高', '正常', '正常', '正常', '高', '正常', '正常', '正常', '高', '正常', '高', '正常',
             '高', '正常', '高', '正常', '高'],
    '刮风': ['否', '是', '否', '否', '否', '是', '是', '否', '否', '否', '是', '是', '否', '否', '否', '是', '否', '是',
             '否', '是'],
    '是否出门': ['否', '否', '是', '是', '是', '否', '是', '否', '是', '是', '是', '否', '是', '否', '是', '否', '是',
                 '否', '是', '否']
    }
df = pd.DataFrame(data)
# 计算先验概率
prior_probability = df['是否出门'].value_counts() / len(df)
# 计算每个属性下的概率
conditional_probability = {}
for col in df.columns[:-1]:
    for attr in df[col].unique():
        prob = df[df[col] == attr]['是否出门'].value_counts() / len(df[df[col] == attr])
        conditional_probability[(col, attr)] = prob
# 计算后验概率
def calculate_posterior_probability(weather, temperature, humidity, windy):
    p_out = prior_probability['是']
    p_not_out = prior_probability['否']

    p_out *= conditional_probability[('天气', weather)]['是']
    p_not_out *= conditional_probability[('天气', weather)]['否']

    p_out *= conditional_probability[('温度', temperature)]['是']
    p_not_out *= conditional_probability[('温度', temperature)]['否']

    p_out *= conditional_probability[('湿度', humidity)]['是']
    p_not_out *= conditional_probability[('湿度', humidity)]['否']

    p_out *= conditional_probability[('刮风', windy)]['是']
    p_not_out *= conditional_probability[('刮风', windy)]['否']

    return p_out, p_not_out
#测试样本集
weather = '晴'
temperature = '炎热'
humidity = '高'
windy = '否'
#输出预测结果
p_out, p_not_out = calculate_posterior_probability(weather, temperature, humidity, windy)
print(f'出门的概率为: {p_out}')
print(f'不出门的概率为: {p_not_out}')
if p_out > p_not_out:
    print('建议出门')
else:
    print('建议不出门')

计算情况和预测结果:

2.计算过程分析

(1)计算先验概率:

# 计算先验概率
prior_probability = df['是否出门'].value_counts() / len(df)

先验概率是指在没有任何其他信息的情况下,某一事件发生的概率。在这个案例中,我们要计算是否出门的先验概率。总样本数为20,其中出门的次数为11,不出门的次数为9。

所以:
先验概率(出门) = P(出门) = 11/20 = 0.55
先验概率(不出门) = P(不出门) = 9/20 = 0.45

(2)计算每个属性下的概率:

# 计算每个属性下的概率
conditional_probability = {}
for col in df.columns[:-1]:
    for attr in df[col].unique():
        prob = df[df[col] == attr]['是否出门'].value_counts() / len(df[df[col] == attr])
        conditional_probability[(col, attr)] = prob

①天气属性下的概率:天气为晴时,总次数为7,出门的次数为3,不出门的次数为4。

P(出门|晴) = 3/7 
P(不出门|晴) = 4/7 

② 温度属性下的概率:温度为炎热时,总次数为6,出门的次数为4,不出门的次数为2。

P(出门|炎热) = 4/6 = 2/3
P(不出门|炎热) = 2/6 = 1/3

③ 湿度属性下的概率:湿度为高时,总次数为10,出门的次数为2,不出门的次数为8。

P(出门|高) = 2/10 =1/5
P(不出门|高) = 8/10 =4/5

④刮风属性下的概率:刮风为否时,总次数为12,出门的次数为9,不出门的次数为3。

P(出门|否) = 9/12 =3/4
P(不出门|否) = 3/12 =1/4

(3)计算后验概率:

# 计算后验概率
def calculate_posterior_probability(weather, temperature, humidity, windy):
    p_out = prior_probability['是']
    p_not_out = prior_probability['否']

    p_out *= conditional_probability[('天气', weather)]['是']
    p_not_out *= conditional_probability[('天气', weather)]['否']

    p_out *= conditional_probability[('温度', temperature)]['是']
    p_not_out *= conditional_probability[('温度', temperature)]['否']

    p_out *= conditional_probability[('湿度', humidity)]['是']
    p_not_out *= conditional_probability[('湿度', humidity)]['否']

    p_out *= conditional_probability[('刮风', windy)]['是']
    p_not_out *= conditional_probability[('刮风', windy)]['否']

    return p_out, p_not_out

给定天气为晴、温度为炎热、湿度为高、刮风为否的情况下,计算出门的概率和不出门的概率。

P(出门|晴,炎热,高,否) = P(出门|晴) * P(出门|炎热) * P(出门|高) * P(出门|否) * P(出门) =11/20*3/7*2/3*1/5*3/4=33/1400≈ 0.023571428571428573
- P(不出门|晴,炎热,高,否) = P(不出门|晴) * P(不出门|炎热) * P(不出门|高) * P(不出门|否) * P(不出门) =9/20*4/7*1/3*4/5*1/4=3/175 ≈ 0.01714285714285714

因此,出门的概率为约0.0236,不出门的概率为约0.0171。根据计算结果,建议出门。

四、实验总结

朴素贝叶斯算法是一种常用的分类算法,它基于贝叶斯定理和特征条件独立假设,通过计算先验概率和条件概率来进行分类。通过实验,我们可以对朴素贝叶斯算法的性能进行全面的评估和总结,从而更好地理解和应用这一经典的分类算法。在实际应用中,朴素贝叶斯算法具有简单、高效、易于实现等优点,适用于大规模数据集和高维特征空间。总的来说,朴素贝叶斯算法在实验中表现出了较好的分类效果和高效的计算速度,尤其适用于文本分类、垃圾邮件过滤等领域。但是在特征之间存在相关性较高的情况下,朴素贝叶斯算法可能会出现欠拟合的情况,需要结合其他算法来提高分类效果。

  • 29
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ohoh。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值