在分类模型中,我们常常以联合概率 P(X,ω) 或者后验概率 P(ω|X) 建模, X={
x1,x2,…,xd}表示一个d维向量,ω=ω1,ω2,…,ωk表示类别。 其中,
P(X,ω)=P(X|ω)⋅P(ω)
P(ω|X)=P(X|ω)⋅P(ω)P(X)
进行转换后,都出现了先验概率 P(ω) 和类条件概率 P(X|ω) 。先验概率可以通过对样本数据进行统计得出,而类条件概率直接统计则不是那么容易得出,原因有两个:1)已有训练样本量总是显得太少,比如在垃圾邮件分类中,一个词向量 x={ 拍卖,惠购,不容错过,