先验概率(边缘概率)指根据以往经验和分析得到的概率,比如全概率公式。是"由因求果"问题中的"因"。
后验概率(条件概率)指在得到“结果”的信息后重新修正的概率。是“执果寻因”问题中的"果"。
后验概率的计算,要使用贝叶斯公式,而且在利用样本资料计算逻辑概率时,还要使用理论概率分布,需要更多的数理统计知识。
贝叶斯公式是关于随机事件A和B的条件概率的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。
朴素贝叶斯分类算法是应用最为广泛的分类算法之一,是以贝叶斯定理为基础,并且假设特征条件之间相互独立的方法。
先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入X求出使得后验概率最大的输出Y
样本数据集D={d1,d2,...,dn}
对应样本数据的特征属性集X={x1,x2,...,xd} (x1...xd相互独立且随机)
类变量Y={y1,y2,...,ym} (即D可以分为ym类别)
Y的先验概率为:
Y的后验概率为:
根据贝叶斯算法可得:
在给定类别 Y 的情况下,进一步表示为:
根据上两式最终可得后验概率为:
由于P(X)大小固定不变,因此在比较后验概率时,只比较上式的分子即可。因此可以得到一个样本数据属于类别 yi 的朴素贝叶斯计算: