#摘录自《统计学习方法》李航#
朴素贝叶斯法(naïve Bayes,NB)是基于贝叶斯定理与特征条件独立假设的分类方法。属于生成模型。
对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
基本方法
输入空间 为n维向量的集合,输出空间为类标记集合Y={c1,c2,…,ck}。
输入为特征向量 ,输出为类标记
。
X是定义在输入空间X上的随机向量,Y是定义在输出空间Y上的随机变量。
P(X,Y)是X和Y的联合概率分布。
训练数据集: T={(x1,y1),(x2,y2),…,(xN,yN)}由P(X,Y)独立同分布产生。
朴素贝叶斯法通过训练数据集学习P(X,Y),具体学习:
先验概率分布:P(Y=ck),k=1,2,…,K
条件概率分布:P(X=x|Y=ck)=P(X(1)=x(1),…,X(n)=x(n)|Y=ck),k=1,2,…K。
此条件概率分布具有指数级数量的参数,其估计实际不可行。
根据条件独立性假设:
后验概率计算根据贝叶斯定理进行:
根据条件独立性假设可以得出:
朴素贝叶斯分类器可表示为:
完整算法流程: