Naive Bayes (朴素贝叶斯)
在机器学习中,朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器
贝叶斯公式&全概率公式&先验概率&后验概率
如果对这四个名词不太熟悉,可以参考《[Machine Learning] 贝叶斯公式 & 全概率公式(Bayes Rule & Total Probability Theorem)》一文。
条件独立性假设(Conditions Independent)
如果 P ( X , Y ∣ Z ) = P ( X ∣ Z ) P ( Y ∣ Z ) P(X,Y|Z) = P(X|Z)P(Y|Z) P(X,Y∣Z)=P(X∣Z)P(Y∣Z),或等价地 P ( X ∣ Y , Z ) = P ( X ∣ Z ) P(X|Y,Z) = P(X|Z) P(X∣Y,Z)=P(X∣Z),则称事件X,Y对于给定事件Z是条件独立地,也就是说,当Z发生时,X发生与否与Y发生与否是无关的。
朴素贝叶斯分类器原理
朴素贝叶斯分类器(Naive Bayes Classifier)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征词之间独立为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入 X X X求出使得后验概率最大的输出 Y Y Y。
设有样本数据集 D = d 1 , d 2 , d 3 , . . . , d n D={d_1,d_2,d_3,...,d_n} D=d1,d2,d3,...,dn,对应样本数据地特征属性集为 X = x 1 , x 2 , x 3 , . . . , x d X={x_1,x_2,x_3,...,x_d} X=x1