1.基本概念
-
朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设特征条件独立假设的分类方法
-
(1)贝叶斯定理
其中:
特征X为条件,标签Y为结果 。
后验概率:P(Y|X)
先验概率:P(Y)
类的条件概率:P(X|Y) -
(2)机器学习中的贝叶斯定理
其中:X1,X2,……,Xn可以理解为每个样本包含的n个特征
-
(3)独立性假设
朴素贝叶斯模型中各特征之间相互独立,即
-
(4)朴素贝叶斯分类器
基于独立性假设,机器学习中的朴素贝叶斯可重写为:
-
(5)朴素贝叶斯分类器的表达式
由于对所有类别来说P(X1,X2,……,Xn|Y)相同,因此朴素贝叶斯判定准则为
显然,朴素贝叶斯分类器的训练过程就是基于训练集D来估计先验概率P(Y),并为每个属性估计条件概率P(Xi|Y) -
(6)拉普拉斯修正
为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行“平滑”,常用“拉普拉斯修正”。
具体来说,令N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数,则有