贝叶斯分类器(也叫朴素贝叶斯分类器)2

朴素贝叶斯分类器

贝叶斯算法2

接上一节,邮件分类中,朴素贝叶斯分类器帮助我们完成了第11份以及第12份邮件的分类。很简单,就是在已知信息里产生这种结果的可能来预测未知的。
那么现在我们碰到这种题目呢?
预测某个人是否拖欠贷款:

Tid有房婚姻状况年收入拖欠贷款
1单身125
2已婚100
3单身70
3已婚120
5离婚95
6已婚60
7离婚220
8单身85
9已婚75K
10单身90K
有房婚姻状况年收入拖欠贷款
已婚120

根据贝叶斯算法:

p(拖欠贷款|没有房,已婚,年收入120)
=
p(没有房,已婚,年收入120,且拖欠贷款)
/p(没有房,已婚,年收入120)


p(不拖欠贷款|没有房,已婚,年收入120)
=
p(没有房,已婚,年收入120,且不拖欠贷款)
/p(没有房,已婚,年收入120)

!!!注意*我们要比较这两者大小,只需要比较右侧式子的分子对吧。
根据表中数据可知:
p(没有房,已婚,年收入120,且不拖欠贷款)
=
这四个条件同时发生的概率=

p(不拖欠贷款)·P(没有房|不能拖欠贷款)·P(已婚|不能拖欠贷款)·P(年收入|不能拖欠贷款)

P(不拖欠贷款)=7/10
P(没有房|不能拖欠贷款)=4/7
P(已婚|不能拖欠贷款)=4/7
那么P(年收入120|不拖欠贷款)=?
我在表中没有找到否,已婚,对应120的啊,因为年收入是连续值,那么你想想如何用合适的方法计算不拖欠贷款下的年收入为120的概率呢?
对于连续值概率大分布,我们最应该想到的就是正态分布对吧(就是所谓的高斯分布)
在这里插入图片描述
是的,正态分布是最适合来表示无拖欠贷款中年收入的分布情况的,因为我们社会人们的薪资分布是呈现正态曲线的,也就是说人们的年收入普遍不低不高,而是处于社会总体年收入的均值处。
那么现在我们就可以根据正太分布的公式来计算这个概率了。根据正态分布公式:
在这里插入图片描述
根据这个公式我们要求拖欠贷款(一共七个样本)的均值u,标准差seta对吧。
经过计算,均值X=(125+100+…+75)/7=110
方差seta2=((125-100)2+(100-110)2…)/7
求得标准差seta=54.54,而对应的x=120对吧,带进去呗!
带入结果:
P(年收入120|不拖欠贷款)=0.0072
好嘞,现在这个我们也求好了!那么我们可以得出
p(没有房,已婚,年收入120,且不拖欠贷款)=0.0016
同理,求得:
p(没有房,已婚,年收入120,且拖欠贷款)=0
结论:
因为0.0016>0,所以系统选择较大的值,也就是判定该人不拖欠贷款。
总结:
朴素贝叶斯分类器可以对数据进行分类的,无论是有离散数据还是连续型数据,朴素贝叶斯都可以得出结果!
优缺点
1.面对孤立噪声点,朴素贝叶斯是健壮的!
2.面对无关属性,朴素贝叶斯分类器是健壮的!
3.相关属性会降低朴素贝叶斯分类器的性能,因为朴素贝叶斯分类器要求类条件之间是独立的。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值