-
拉普拉斯平滑
保证不会出现0概率,每个概率都是0-1,概率总和为1
-
似然度,置信度
-
先验概率,后验概率
先验概率:P(X) ,P(Y)
后验概率:P(X|Y) ,P(Y|X)
贝叶斯公式:
-
例子(通过简单例子理解朴素贝叶斯的基本思想)
例一:癌症检测结果分析
目标:根据先验概率P(Y)(患病和无患病的比例)和后验概率P(X|Y)(患病同时被检测出患病,无患病同时被检测出无患病的比例),根据贝叶斯定理估计某次测试中被检测为患病,实际上确实患病的概率P(Y|X)。
用Y=1表示患癌症,Y=0表示没有患癌症,X=1表示检测出患癌症,X=0表示检测出没有患癌症。
假定根据先验知识我们知道,患癌症的概率是0.008%,所以先验概率:
癌症检测中,针对有病的患者确实返回正确结果(检测出患病)的概率为98%,针对无病的患者返回正确结果(检测出无患病)的概率为97%,那么该测试中,TP(患病,检测结果为患病),TN(患病,检测结果为无患病),FP(无患病,检测结果为患病),FN(无患病,检测结果为患病)的后验概率分别是:
假设现在化验结果是有癌症,那么确实患癌症的概率为:
没有患癌症的概率:
最后根据后验概率最大的类作为输出,所以判断该人没有患病。
例二:西瓜数据集3.0分析
建立西瓜数据集3.0--参考机器学习算法笔记--------建立西瓜数据集
print(df_3.groupby(['好瓜']).size())
-
-
-
参考资料
- 统计学习方法--李航
- 机器学习--Mitchell
- 机器学习--周志华