朴素贝叶斯分类器
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的y。之所以称其为“朴素”,就是因为做出了特征条件独立的假设。
优点: 在数据较少的情况下仍然有效,可以处理多类别问题
缺点: 对于输入数据的准备方式较为敏感
适用数据类型: 标称型数据
基本方法
假定训练数据集
T={
(x1,y1),(x2,y2),...,(xn,yn)}
是由 P(X,Y) 独立同分布产生。
朴素贝叶斯法通过训练数据集学习联合概率分布 P(X,Y) 。具体地,学习以下先验概率分布和条件概率分布,先验概率分布
P(Y=ck),k=1,2,...,K
条件概率分布
P(X=x|Y=ck)=P(X(1),...,X(n)=x(n)|Y=ck),k=1,2,,...,K
于是学习到联合概率分布 P(X,Y) .
P(X,Y)=P(X=x|Y=ck)⋅P(Y=ck)
条件概率分布有指数级数量的参数,起估计实际是不可行的。 x(j) 可能取值 Sj 个,j = 1,2,…,n,Y的可能取值有K个,那么参数个数为 K∏nj=1Sj ,这意味着维度灾难。
朴素贝叶斯法对条件概率分布作了条件独立性的假设,由于这是一个较强的假设,朴素贝叶斯法也由其得名。具体地,条件独立性假设是