朴素贝叶斯分类器

本文通过实例介绍朴素贝叶斯分类器的工作原理。它基于贝叶斯公式和特征间的独立性假设,通过计算后验概率来决定分类。文章讨论了如何处理未出现的特征值,介绍了拉普拉斯修正来解决概率为零的问题,并提供了实际应用示例。
摘要由CSDN通过智能技术生成

    分类器是根据某一事物一系列特征来判断该事物的类别朴素贝叶斯分类器就是根据先验概率应用贝叶斯公式来求解 后验概率的一种分类器,哪种类别的概率大,就划分为哪种类别。(先验概率和后验概率不熟悉的请看最大似然估计),其实原理很简单,并不需要什么复杂的训练结构,复杂只是计算量,这个交给计算机即可,所以懂了原理,朴素贝叶斯分类器也就掌握了。先不写理论,以例子开始,希望能说的浅显易懂。

一、西瓜的好坏

    这里是要借鉴周志华老师书中西瓜的例子的形式,这用这类例子讲解贝叶斯分类问题容易理解。现作简化如下:

    现已知7个西瓜的好坏,西瓜的特征有三种:色泽{青绿、乌黑、浅白},根蒂{蜷缩、稍蜷、硬挺},敲声{浊响、沉闷、清脆},不同特征之间的组合,对应着西瓜的好坏,如下表:


    现在拿来一个新的西瓜,只知道它具有如下特征,问这个西瓜是好是坏?


    要得出好瓜还是坏瓜,就要看他们分别对应的概率,谁大就是谁。


    怎么求解呢?根据贝叶斯公式可以根据已知条件来求解

    这两个哪个概率大,西瓜就属于那一类。贝叶斯公式忘记的,请看浅谈全概率公式和贝叶斯公式



    由上述公式我们可以看出分母都是一样的,因此在计算的时候这个可以忽略,不影响最终的结果。对与分子中好瓜与坏瓜对应的概率,我们可以根据已知的数据,计算好瓜与坏瓜的比例即可:


    那么对于,这是关于特征的联合概率,该怎么求呢?直接 根据出现频率来作为概率?那么不好意思,上述情况没有在给出的数据中出现!但是如果这些特征之间是相互独立的,那就容易了,因为每个特征取值出现的频率还是很好求的,分别对应相乘即可。比如p(蜷缩|好瓜=是) = 2/3。上述公式就化为如下形式:



为什么要这么做呢?这就要说到朴素贝叶斯的由来了。

二、”朴素”由来

    所谓朴素就是假设特征之间是相互独立的

朴素贝叶斯分类器(Naive Bayes classifier)是一种常用的概率分类方法,它基于贝叶斯理论和特征独立假设。朴素贝叶斯分类器有着简单高效的特点,在文本分类、垃圾邮件过滤、情感分析等领域都有广泛应用。 朴素贝叶斯分类器的基本原理是利用训练集特征和对应的分类标签构建生成模型,然后根据测试样本的特征,通过计算后验概率来进行分类预测。具体而言,朴素贝叶斯分类器假设特征之间相互独立,基于此假设,可以通过训练集特征在各个类别下的条件概率来计算样本在不同类别下的后验概率,并选择后验概率最大的类别作为分类结果。 朴素贝叶斯分类器的训练过程包括两个步骤:首先是计算各个类别的先验概率,即每个类别在训练集中的出现频率;然后是计算每个特征在各个类别下的条件概率,即给定一个类别时,特征的条件概率。在得到先验概率和条件概率后,可以通过贝叶斯公式计算后验概率。 朴素贝叶斯分类器的优点在于对小规模数据集具有较好的分类性能,且能够处理多类别分类问题。而其缺点则是对于特征之间的相关性较为敏感,当特征之间存在强相关性时,朴素贝叶斯分类器的性能会下降。 总的来说,朴素贝叶斯分类器是一种简单而有效的分类方法,它在许多实际应用中现出色。其理论基础扎实,实现相对简单,适用于处理小规模数据集的分类问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值