分类:朴素贝叶斯分类方法

本文介绍了朴素贝叶斯分类方法,包括贝叶斯定理的应用、条件概率的计算方式以及该方法的优缺点。朴素贝叶斯分类基于贝叶斯定理,假设变量间相互独立,简化了计算,但在处理相关性时可能降低分类准确性。文章通过实例解释了条件概率的计算,并讨论了在属性相关性较大时分类效果不佳的问题。
摘要由CSDN通过智能技术生成

        在很多的应用中,属性集与类别之间的关系是不确定的,换句话说,尽管测试样本的属性值与训练样本相同,但是也不一定能正确的预测其类别,其中一个原因是噪声的存在,另一个原因是某些影响分类的属性并没有出现在属性集中。贝叶斯方法都有所耳闻,之所以称为“朴素”贝叶斯方法,是因为在分类时,假定了“各变量间相互独立”的条件,这个条件算是比较强的了,大大简化了分类时的计算,但同时也丢失了一些分类准确性,毕竟不是所有变量都相互独立。为了弱化“各变量间相互独立”条件的影响,人们又提出了基于贝叶斯方法的其它分类方法,如贝叶斯信念网络。总之,我们在数据挖掘时希望“各变量间相互独立”条件是成立的,但实际并非那样,因此在需要考虑变量间存在相关性的问题,或许在提取数据特征的时候,我们可以做到从源头去满足“各变量间相互独立”条件,这样最好了。扯远了,还是介绍一下朴素贝叶斯分类方法吧。

1.  贝叶斯定理的应用

       在其它一些分类方法中(如决策树、基于规则的分类、K最邻近分类等),类别预测结果是唯一的,而在朴素贝叶斯分类方法中,对于待分类样本X,可能出现算得其有70%的可能性属于类y_{1},有25%的可能性属于类y_{2},有5%的可能性属于类y_{3},这是朴素贝叶斯分类方法的特别之处,依据计算结果的大小,最终当然有理由认为X属于类y_{1}

      对朴素贝叶斯分类器的训练也即是生成一张概率表,为了生成这张概率表,我们先引入贝叶斯定理,对贝叶斯理论这里就不多说了,这里直接引入贝叶斯公式,然后说明该公式是如何在分类过程中作用的

                                                                         P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}

       P(Y)表示类别的先验概率,可以理解为当我们对待分类样本X的取值一无所知时,将其分为不同类的概率。我们可以按照以下公式确定P(Y)

                                                                                     P(y_{i})=\frac{n_{i}}{N}

P(y_{i})表示类y_{i}的先验概率,n_{i}表示训练集中属于类y_{i}的样本个数,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值