贝叶斯,朴素贝叶斯

贝叶斯

贝叶斯定理解释

贝叶斯定理可通过考虑任何给定的人患病的可能性和测试的总体准确性来确定医学测试结果的准确性。贝叶斯定理依赖于合并先验概率分布以产生后验概率。在贝叶斯统计推断中,先验概率是在收集新数据之前发生事件的概率。

这是在进行实验之前根据当前知识对结果可能性进行的最佳理性评估。后验概率是考虑新信息后事件发生的修订概率。后验概率是通过使用贝叶斯定理更新先验概率来计算的。用统计术语来说,后验概率是事件A发生的概率,假设事件B已经发生。

例子1:
您可能有兴趣找出酒精中毒患者患肝病的可能性。 “酗酒”是对肝病的测试(有点像石蕊测试)。

A可能表示事件“患者患有肝病”。 过去的数据告诉您,进入诊所的患者中有10%患有肝病。 P(A)= 0.10。

B可能意味着石蕊试纸,即“患者是酒鬼”。 诊所的病人中有5%为酗酒者。 P(B)= 0.05。

您可能还知道,在那些被诊断出患有肝病的患者中,有7%为酗酒者。

这就是您的B | A:考虑到患者患有肝病,酒精中毒的机率是7%。

贝叶斯定理告诉您:

P(A | B)=(0.07 * 0.1)/0.05 = 0.14

换句话说,如果患者是酒鬼,则他们患肝病的机会为0.14(14%)。 与过去的数据所建议的10%相比,这是一个很大的增长。 但是,任何特定的患者仍然不太可能患有肝病。

例子2:
看定理的另一种方式是说一个事件紧随另一个事件。上面我说过“测试”和“事件”,但是将其视为导致“第二事件”的“第一事件”也是合理的。没有一种正确的方法:使用对您最有意义的术语。

在特定的疼痛诊所中,有10%的患者开了麻醉止痛药。
总体而言,诊所的患者中有5%的人沉迷于麻醉品(包括止痛药和非法药物)。
在所有人开的止痛药中,有8%是瘾君子。

如果患者是瘾君子,他们将被开处方止痛药的可能性是多少?

步骤1:从问题中找出事件“ A”是什么。该信息在此特定问题的斜体部分中。首先发生的事件(A)正在服用止痛药。这是10%。

步骤2:从问题中找出事件“ B”是什么。该信息也在此特定问题的斜体部分。事件B正在上瘾。这是5%。

步骤3:弄清楚事件B(步骤2)对于事件A(步骤1)的概率。换句话说,找出(B | A)是什么。我们想知道“给人们开处方止痛药,他们上瘾的可能性是多少?”在问题中给出为8%,即0.8。

步骤4:将步骤1、2和3中的答案插入公式并求解。
P(A | B)= P(B | A)* P(A)/ P(B)=(0.08 * 0.1)/0.05 = 0.16

吸毒者开处方止痛药的可能性为0.16(16%)。

朴素贝叶斯

什么是朴素贝叶斯算法?

这是一种基于贝叶斯定理的分类技术,假设预测变量之间具有独立性。 简而言之,朴素贝叶斯分类器假定类中某个特定功能的存在与任何其他功能的存在无关

例如,如果水果是红色,圆形且直径约3英寸,则可以将其视为苹果。
即使这些功能相互依赖或取决于其他功能的存在。
所有这些属性都独立地导致这种水果是苹果的可能性,这就是为什么它被称为“朴素”的原因。

朴素贝叶斯模型易于构建,对于非常大的数据集特别有用。 除了简单之外,朴素的贝叶斯(Naive Bayes)还胜过非常复杂的分类方法。

贝叶斯定理提供了一种从P(c),P(x)和P(x | c)计算后验概率P(c | x)的方法。 看下面的等式:
在这里插入图片描述

P(c | x)是给定预测变量(x,属性)的类别(c,目标)的后验概率。
P(c)是分类的先验概率。
P(x | c)是似然度,它是预测变量给定类别的概率。
P(x)是预测变量的先验概率。

朴素贝叶斯算法如何工作?

让我们通过一个例子来理解它。 下面是天气的训练数据集和相应的目标变量“Play”(建议进行游戏)。 现在,我们需要根据天气情况对玩家是否参加比赛进行分类。 让我们按照以下步骤进行操作。

步骤1:将资料集转换成频率表

第2步:通过找到概率(如阴天概率= 0.29和Play概率为0.64)来创建似然度表。

在这里插入图片描述

步骤3:现在,使用朴素贝叶斯方程计算每个类别的后验概率。 后验概率最高的类别是预测的结果。

问题:天气晴朗时,我们将玩可以玩。 这个说法正确吗?

我们可以使用上面讨论的后验概率方法来解决它。

P(是|晴天)= P(Sunny|Yes)* P(Yes)/ P(晴天)

这里我们有P(Sunny |Yes)= 3/9 = 0.33,P(Sunny)= 5/14 = 0.36,P(Yes)= 9/14 = 0.64

现在,P(是|晴天)= 0.33 * 0.64 / 0.36 = 0.60,这是最有可能的结果。

朴素贝叶斯(Naive Bayes)使用类似的方法根据各种属性预测不同类别的概率。 该算法主要用于文本分类,并且存在多个类的问题。

朴素贝叶斯的优缺点是什么?

优点:

可以轻松快速地预测测试数据集的类别。在多类别预测中也表现出色。

如果保持独立性假设,那么与其他模型(例如逻辑回归)相比,朴素贝叶斯分类器的性能会更好,并且您需要的训练数据也更少。

与数字变量相比,在分类输入变量的情况下,它表现良好。对于数值变量,假定正态分布(钟形曲线,这是一个很强的假设)。

缺点:

如果分类变量具有一个类别(在测试数据集中),而该类别在训练数据集中没有被观察到,则模型将分配0概率,并且将无法进行预测。这通常称为“零频率”。为了解决这个问题,我们可以使用平滑技术。最简单的平滑技术之一称为拉普拉斯估计。

另一方面,朴素的贝叶斯也被认为是一个不好的估计量,因此,precise_proba的概率输出不要太在意。

朴素贝叶斯的另一个局限性是独立预测变量的假设。在现实生活中,我们几乎不可能获得一组完全独立的预测变量。

改善朴素贝叶斯模型功能的技巧

以下是一些提高Naive Bayes模型功能的技巧:

如果连续要素不具有正态分布,则应使用变换或其他方法将其转换为正态分布。

如果测试数据集的频率为零,则应用平滑技术“拉普拉斯校正”来预测测试数据集的类别。

删除相关特征,因为高度相关的特征在模型中被投票两次,这可能会导致重要性过高。

朴素贝叶斯分类器具有有限的参数调整选项,例如用于平滑的alpha = 1,fit_prior = [True | False](是否学习类先验概率)以及其他一些选项(请在此处详细了解)。我建议重点关注数据的预处理和功能选择。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值