朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定输入x,利用贝叶斯定理计算后验概率最大的输出y。朴素贝叶斯法在数据较少的情况下任然有效,但对输入数据的准备方式较为敏感。
一、基本方法
设输入空间X为n维向量的集合,输出空间为类标记集合Y={c1,c2,...,ck}。输入为特征向量x∈X,输出为类标记y属于Y。X是定义在输入空间X上的随机变量,Y是定义在输出空间Y上的随机变量。用P(X,Y)表示X和Y的联合概率分布。
训练数据集:
T={(x1,y1),(x2,y2),...,(xN,yN)}
由P(X,Y)独立同分布产生(在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布)
朴素贝叶斯法就是通过训练数据集来学习联合概率分布P(X,Y)。具体地,就是学习先验概率分布和条件概率分布。
先验概率分布:
P(Y=ck),k=1,2,...K (1)
条件概率分布:
P(X=x|Y=ck)=P(X(1)=x(1),...X(n)=x(n)|Y=ck), k=1,2,...K (2)
条件概率分布有指数数量的参数:假设X有S个特征,Y有K个取值,则参数数量:K∏Si
朴素贝叶斯的假设:
朴素贝叶斯与贝叶斯的区别在于他对条件概率分布作了条件独立性假设,所谓“独立”即一个特征出现的可能性与其他特征是否出现没有关系,且每个特征都同等重要。当然该假设在实际问题中也存在问题,例如,在做垃圾邮件判断时,假设每个单词出现的位置是概率相同的,但实际中有些单词经常是共同出现的;并且有时候不用所有的特征就能做出判断。
朴素贝叶斯分类器:
朴素贝叶斯分类时,对于给定的输入x,通过学习的模型计算后验概率分布P(Y=ck|X=x),将后验概率最大的类作为x的类输出。
后验概率根据贝叶斯定理计算:
由贝叶斯公式:
P(A|B)=(P(B|A)*P(A))/P(B)