贝叶斯分类的概率公式如下:
P(c|x)=P(c)P(x|c)P(x)
其中, P(c) 表达了样本空间中各类样本所占的比例, 根据大数定理, 如果训练集包含了充足的独立同分布样本是, P(c) 可以从训练集中各类样本出现的概率来估计。 但是对 P(x|c) 来说, 由于它涉及到 x 的所有属性的联合分布, 直接根据出现的概率来估计是不可行的。
估计类条件概率的常用方法是先假定其具有某种确定的概率分布模型, 然后 在基于训练样本估计分布参数。 极大似然估计(Maximum Likehood Estimation, MLE)就是根据数据采样来估计概率分布参数的方法。
为了简化问题模型, 可以假设样本所有属性的条件概率分布是独立的, 这就是朴素贝叶斯分布.
基于属性条件独立性假设,
其中 d 为属性的个数. 于是, 基于贝叶斯判定准则,
这就是朴素贝叶斯分类的表达式.
于是朴素贝叶斯分类器的训练过程就是基于训练集来估计类先验概率 P(c) , 并且为每个属性估计条件概率 P(xi|c)
基于前面的独立性假设:
P(c)=|Dc||D|
离散属性的条件概率估计为:
P(xi|c)=|Dc,xi||D|
如果是连续属性, 则假定其概率密度函数为 P(xi|c)为N(uc,i,σ2c,i) , 则
P(xi|c)=12π−−√σc,ie−(xi−uc,i)22σ2c,i
Reference
机器学习 - 周志华 清华大学出版社