1.朴素贝叶斯
注:朴素贝叶斯和贝叶斯法不是同一个概念
朴素贝叶斯法是基于朴素贝叶斯定理和条件独立性假设的方法。对于给定数据集,先基于特征条件独立假设学习输入/输出的联合分布。然后基于这个模型,求出给定的输入x的后验概率最大的输出y。
定义:设输入空间 χ⊆Rn χ ⊆ R n 为n维向量的集合,输出空间为类标记集合 γ γ = { c1,c2,⋯,ck c 1 , c 2 , ⋯ , c k }。X是定义在输入空间 χ χ 上的随机变量,Y是定义在输出空间 γ γ 上的随机变量。P(X,Y)是X和Y的联合概率分布,训练数据集T={ (x1,y1),(x2,y2),⋯,(xN,yN) ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x N , y N ) }由P(X,Y)独立同分布产生。
朴素贝叶斯法通过训练集学习到联合概率分布P(X,Y)。想要学习到联合概率分布,我们需要先知道先验概率分布和条件概率分布。先验概率分布为
P(Y=ck),k=1,2,⋯,K P ( Y = c k ) , k = 1 , 2 , ⋯ , K
条件概率分布为
P(X=x|Y=ck)=P(X(1)=x(1),⋯,X(n)=x(n)|Y=ck),k=1,2,⋯,K P ( X = x | Y = c k ) = P ( X ( 1 ) = x ( 1 ) , ⋯ , X ( n ) = x ( n ) | Y = c k ) , k = 1 , 2 , ⋯ , K
于是我们可以得到联合概率分布。
朴素贝叶斯法提出了条件独立性的假设。具体的,条件独立性假设为
P(X=x|Y=ck)=P(X(1)=x(1),⋯,X(n)=x(n)|Y=ck)=∏</