条件概率与乘法公式与全概率公式
如图,A和B是全集的子集,则有:
这就是条件概率公式。对条件概率公式稍加改写便可得到:
上式告诉我们:当P(AB)不容易求的时候,可以利用P(A|B)P(B)或P(B|A)P(A)来求
将上式一般化:
这就是乘法公式。
下面介绍全概率公式:
全概率公式将求解一个复杂事件的概率化解为求解多个子事件的概率。
贝叶斯定理
根据前面的乘法公式:
我们可得:
这就是贝叶斯定理,等式右边的3个概率都是已知的,所以可求解。基于贝叶斯定理,有以下3个常见算法:
1.朴素贝叶斯算法
2.半朴素贝叶斯算法
3.贝叶斯网络
朴素贝叶斯算法(Naive Bayes):利用贝叶斯定理来预测一个样本属于某个类别的概率,选择其中较大的一个类别作为该样本的预测结果。即:
由于数据集的属性往往非常多,计算P(X|ci)的开销很大,所以做出“朴素”假定:属性之间相互独立,即:
这样我们就可以计算每个样本属于各个类别的后验概率,这就是朴素贝叶斯的朴素思想,严格来说,贝叶斯分类算法不能算是算法,因为它就是最底层的东西。
除此之外,还有对连续属性的处理方法(高斯贝叶斯算法),以及拉普拉斯平滑来处理某种后验概率为0的情形,**因为没有出现过和概率为0是两码事。**还有半朴素贝叶斯算法,适当考虑一部分属性之间的相关关系。