朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
1 基本方法
输入空间
为n维向量的集合,输出空间为类标记集合 Y = { c
1
,c
2
,...,c
k
},输入为特征向量x,输出为类标记y。
已知:训练数据集 T = { (x
1
,y
1
) ,(x
2
,y
2
),...,(x
N
,y
N
) }。
则先验概率分布为 P( Y = c
k
) , k = 1,2,...,K
条件概率分布
由先验概率分布及条件概率分布我们可以学习到联合概率分布P( X,Y ),其中条件概率分布有指数级数量的参数,朴素贝叶斯法对条件概率分布作了条件独立性假设。具体的条件独立性假设是:
条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的,这一假设使朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。
当朴素贝叶斯法分类时,对给定的输入x,计算后验概率分布P(Y=c
k
|X=x),将后验概率最大的类别作为x的类输出。后验概率计算根据贝叶斯定理进行:
于是朴素贝叶斯的分类器可表示为:
注意:上式求解的是类别c
K
,恰巧分母中对于所有的c
k
都是相同的,所以朴素贝叶斯分类器可以化简为:
(未完待续)