理解贝叶斯分类器

以前看了一些统计类的书籍,有两本需要看的书还没开始看,一本是非参数统计,另一本是贝叶斯统计。其实学习就是这样,如果你不开始永远都是停在原地,今天简单的学习了下机器学习的贝叶斯分类器。希望尽快把这两本书看完,以下是今天的学习心得。
先讲个故事吧!当你看到一个人走到你面前的时候,你要判断这个人有没有受过高等教育。我想大部分人,一会儿就根据自己的以往经验判断结果。我们的判断其实就是把这个人归类。看他在哪个类中的概率大一点。一般地,当我们看到他穿着整齐,文质彬彬。我们就会说他受过高等教育的概率很大,但是有时候人不可貌相,也有例外。所以呢,我们只是根据自己的经验去求得条件概率进行判断的。我们判断的标准也不过是根据他的行为举止,穿着,年龄,等外贸特征去判断分类。贝叶斯分类就是根据每个特征在不同类别中的概率去切分未知类别的数据。
该分类之所以取名为贝叶斯分类器,是因为算法的中心思想用到了著名的贝叶斯定理,也就是先验概率和后验概率的转化问题。 机器学习—贝叶斯分类器以及R语言实现案例

先验概率是没法通过数据样本估计的,而后验概率可以通过样本进行频率估计出来,再通过这个公式就可以解决很多问题了。
算法思想:先通过贝叶斯公式转换成后验概率,,,,再转换成各个特征的条件概率的乘积,最后比较先验概率大小进行分类。
下面通过案例说明:
最近“小苹果”很火,我们就以苹果来举例说,假设可以用三个特征来描述一个苹果,分别为“尺寸”、“重量”和“颜色”;其中“尺寸”的取值为小、大,“重量”的取值为轻、重,“颜色”取值为红、绿。对这三个特征描述的苹果中,对苹果的按味道进行分类,可取的值为good、bad。
朴素贝叶斯分类器就要要解决如下一个问题,已知苹果味道取good和bad的概率,那么如果给定一个一组苹果的特征,那么这个苹果味道取good和bad的概率是多少?这是个典型的逆概率的问题。
尺寸(size) 大 小 大 大 小 小
重量(weight) 轻 重 轻 轻 重 轻
颜色(color) 红 红 红 绿 红 绿
味道(taste) good good bad bad bad good
以上给出了6个苹果的特征描述及其口味,那个一个大而重的红苹果,能否估计出它的味道是good还是bad?
这里我们先解释下朴素的含义,朴素就是这样一个假设:描述苹果的三个特征是相互独立的。这个假设会对后面的计算带来极大的方便。但是肯定有人会想,对这个例子来说,这个假设就不成立嘛,大小和重量从直觉上我们都会感到是两个正相关的特征。是的,朴素的假设在实际世界中是较难满足的,但是实际使用中,基于这个假设作出预测的正确率是在一个可接受的范围。

问题分析:(1)首先我们的目的是要判断(一个大而重的红的)苹果的口味是好还是坏,我们可以设该事件为x,问题转化为条件概率为p(good|x),p(bad|x),比较这个概率的大小就可以了。如果p(good|x)>p(bad|x)则为good,反之为bad。
(2)计算p(good|x),p(bad|x),这两个概率:这两个概率就要根据贝叶斯公式来求了,
p(good|x)=(p(x|good)*p(good))/p(x);然而p(good)可以从样本中统计出来,p(x)对每个类来说都是相等的一个未知的常数,所以呢,我们只要比较p(x|good)和p(x|bad)值的大小即可。
(3)计算p(x|good)和p(x|bad)的值:显然我们可以根据样本统计出p(size|good),p(size|bad),p(weight|good),p(weight|bad),p(color|good),p(color|good),也就是各个特征在不同类中的条件概率。现在我们不难想象,p(x|good)跟他特征的条件概率之间的关系。这里用了乘法模型,即p(x|good)=p(小|good)*p(重|good)*p(红|good)。
(4)比较概率大小,做出分类抉择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值