机器学习方法篇(16)------朴素贝叶斯分类

● 每周一言

烟花易冷,也曾发光发热。

导语

上周讲了四个概率统计公式,加法公式、乘法公式、贝叶斯公式、全概率公式,其中的贝叶斯公式由概率乘法公式联立推出。作为贝叶斯分类中应用最广泛的模型,朴素贝叶斯分类模型的算法思想是什么?这些公式又是如何运用到分类问题当中的?

朴素贝叶斯分类

朴素贝叶斯分类,顾名思义是一种简单而直观的分类算法。其思想出发点也的确很朴素,就是根据待分类样本在各个类别中出现的概率,哪个最大就属于哪个。比如黄皮肤的人多半会认为来自亚洲,而黑人多半会认为来自非洲,白人则多半会认为来自非洲。

fig1

当然,上面只用到了一种分类特征,肤色。在一般分类问题中,我们通常需要考虑多种特征,而这些特征两两之间有可能存在一定的相关性。比如语言和肤色,价格和销量等。
fig2

我们知道,贝叶斯分类的目标是: 根据样本的先验概率,准确估计出待分类样本的后验概率。用贝叶斯公式写出其目标函数如下,其中c为类别,x为样本。
f(x)=argmaxcP(c|x)=argmaxcP(x|c)P(c)P(x)=argmaxcP(x|c)P(c)

但是由于存在特征之间相关性的不确定性,很难根据训练样本计算出上式条件概率P(x|c)的概率分布。这个时候,朴素贝叶斯便应运而生。朴素贝叶斯避开了这个难题,对条件概率分布作了条件独立假设,如下:
P(x|c)=idP(xi|c)

有了上面的条件概率简化计算方式,朴素贝叶斯分类的目标函数就变为如下形式:
f(x)=argmaxcP(c|x)=argmaxcP(c)idP(xi|c)

上式便是 朴素贝叶斯分类公式。P(c)可以直接统计训练样本中各个类别的占比得出。
P(c)=|Dc||D|

对于 离散特征,条件概率P(x|c)可通过计算在c类别中第i个属性上取值为 xi 的比例得出,公式如下:
P(x|c)=|Dc,xi||Dc|

而对于 连续特征,需先调研假设特征符合某种分布规律,比如常见的二项分布、高斯分布、泊松分布、伯努利分布等,再计算出相应的条件概率。

得到条件概率后,概率最大的类别即为朴素贝叶斯分类模型的输出。

fig3

需要注意的是,概率计算过程中有可能出现概率值为0,从而导致连乘后值为0的情况。这里引入 拉普拉斯平滑系数,简单理解就是分子分母同时加上一个常数,来避免计算值为0。可以证明,当训练集足够大时,加入拉普拉斯平滑系数的估计值将趋近实际概率值。

以上便是朴素贝叶斯分类的讲解,敬请期待下节内容。

结语

感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白

face

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值