朴素贝叶斯法(naive Bayes):
朴素贝叶斯法是基于贝叶斯理论与特征条件独立假设的分类方法。 对于给定的数据集,基于特征条件独立假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入,利用贝叶斯定理求解最大化后验概率的输出。
4.1 学习策略:
设输入空间为n维向量的集合,输出空间为类别标记的集合, ,是定义在输入空间的随机向量,是定义在输出空间上的随机变量,是随机变量和的联合概率分布。
训练数据集:
先验概率分布:
条件概率分布:
朴素贝叶斯对条件概率做独立性假设,即:
后验概率:(给定输入)
带入得:
4.2 朴素贝叶斯分类器:
注意到所有分母均相同,由于化简式为:
后验概率最大化的含义:
设损失函数为0-1损失函数,期望风险函数为:,由于期望是条件概率的期望,则该条件期望为:
对逐个极小化,由此可得:
所以,根据期望风险最小化准则得到的后验概率最大化准则:
4.3 贝叶斯参数估计:
极大似然估计:
先验概率的极大似然估计:
条件概率的极大似然估计:
对给定的实例,计算,确定实例类别。
贝叶斯估计:
由于极大似然估计会出现估计的概率值为0的情况,使分类产生偏差,使用贝叶斯估计解决该问题。
先验概率的贝叶斯估计:
条件概率的贝叶斯估计: