机器学习算法笔记--------朴素贝叶斯

  • 拉普拉斯平滑

保证不会出现0概率,每个概率都是0-1,概率总和为1

  • 似然度,置信度

  • 先验概率,后验概率

先验概率:P(X) ,P(Y)

后验概率:P(X|Y) ,P(Y|X)

贝叶斯公式:

P(Y|X) = \frac{P(X,Y)}{P(X)}=\frac{P(X|Y)*P(Y)}{P(X)}


  • 例子(通过简单例子理解朴素贝叶斯的基本思想)

例一:癌症检测结果分析

目标:根据先验概率P(Y)(患病和无患病的比例)和后验概率P(X|Y)(患病同时被检测出患病,无患病同时被检测出无患病的比例),根据贝叶斯定理估计某次测试中被检测为患病,实际上确实患病的概率P(Y|X)

用Y=1表示患癌症,Y=0表示没有患癌症,X=1表示检测出患癌症,X=0表示检测出没有患癌症。

假定根据先验知识我们知道,患癌症的概率是0.008%,所以先验概率

P(Y=1)=0.008

P(Y=0)=0.992

癌症检测中,针对有病的患者确实返回正确结果(检测出患病)的概率为98%,针对无病的患者返回正确结果(检测出无患病)的概率为97%,那么该测试中,TP(患病,检测结果为患病),TN(患病,检测结果为无患病),FP(无患病,检测结果为患病),FN(无患病,检测结果为患病)的后验概率分别是:

TP=P(X=1|Y=1)=0.98

TN=P(X=0|Y=1)=0.02

FP=P(X=1|Y=0)=0.03

FN=P(X=0|Y=0)=0.97

假设现在化验结果是有癌症,那么确实患癌症的概率为:

P(Y=1|X=1)=\frac{P(X=1|Y=1)*P(Y=1)}{P(X=1)} =\frac{P(X=1|Y=1)*P(Y=1)}{P(X=1,Y=1)+P(X=1,Y=0)} =\frac{P(X=1|Y=1)*P(Y=1)}{P(X=1|Y=1)*P(Y=1)+P(X=1|Y=0)*P(Y=0)}

P(Y=1|X=1)=\frac{0.98*0.008}{0.98*0.008+0.03*0.992}=0.21

没有患癌症的概率:

P(Y=0|X=1)=\frac{0.03*0.992}{0.98*0.008+0.03*0.992}=0.79

最后根据后验概率最大的类作为输出,所以判断该人没有患病。

例二:西瓜数据集3.0分析

建立西瓜数据集3.0--参考机器学习算法笔记--------建立西瓜数据集

print(df_3.groupby(['好瓜']).size())   

 

  •  

  •  

  • 参考资料

  1. 统计学习方法--李航
  2. 机器学习--Mitchell
  3. 机器学习--周志华
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值