机器学习十大算法之一:朴素贝叶斯Bayes
1 课题导入
1.1 贝叶斯公式
P(A∪B)=P(A)+P(B)−P(A∩B) P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B )
P(AB)=P(A|B)P(B)=P(B|A)P(A) P ( A B ) = P ( A | B ) P ( B ) = P ( B | A ) P ( A )
贝叶斯公式:
1.2 先验概率、后验概率、可能性
先验概率:先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断,先验概率就是没有经过实验验证的概率,根据已知进行的主观臆测。
eg: 抛一枚硬币,在抛之前,主观推断P(正面朝上) = 0.5
后验概率: 后验概率是指在得到“结果”的信息后重新修正的概率,如贝叶斯公式中的。是“执果寻因”问题中的”果”。先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。解释下来就是,在已知果(B)的前提下,得到重新修正的因(A)的概率P(A|B),称为A的后验概率,也即条件概率。后验概率可以通过贝叶斯公式求解。
P(e|H) 就是似然函数,P(e)相当于是一个归一化项,整个公式就是表达了“后验概率正比于先验概率乘以似然函数”。
1.3 概率基础知识
1.3.1 条件概率
是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B条件下A的概率”。
P(A|B)=P(AB)/P(B) P ( A | B ) = P ( A B ) / P ( B )
P(B|A)=P(AB)/P(A) P ( B | A ) = P ( A B ) / P ( A )
所以: P(A|B)=P(B|A)∗P(A)/P(B) P ( A | B ) = P ( B | A ) ∗ P ( A ) / P ( B )
1.3.2 全概率公式
1.3.3 贝叶斯公式
1.3.4 拉普拉斯平滑
a. 拉普拉斯平滑的意义
为了解决零概率的问题,法国数学家拉普拉斯最早提出用加1的方法估计没有出现过的现象的概率,所以加法平滑也叫做拉普拉斯平滑。
假定训练样本很大时,每个分量x的计数加1造成的估计概率变化可以忽略不计,但可以方便有效的避免零概率问题。
b. 拉普拉斯平滑公式
公式 P(yk|x)=P(yk)∗∏P(xi|yk