部分内容转自:https://blog.csdn.net/qq_27009517/article/details/80044431
0.朴素贝叶斯
朴素贝叶斯分类(NBC,Naive Bayes Classifier)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入X,求出使得后验概率最大的输出Y。
设样本数据集,
对应样本数据的特征属性集为,
类别集。
即D可以分为m种类别。其中相互独立同分布且随机。
那么Y的先验概率为P(Y),Y的后验概率为P(Y|X)。由贝叶斯定理可以得到,后验概率可以由证据P(X),先验概率P(Y),条件概率P(X|Y)计算得出,公式如下所示:
换成分类的示意表达式:
朴素贝叶斯基于各个特征之间相互独立,在给定取值时,可以将上式进一步写为
因为P(X)的值是固定不变的,因此在比较后验概率时,只需要比较上式的分子即可。因此可以得到一个样本数据属于类别
的朴素贝叶斯计算如下图所示: