目录
朴素贝叶斯时基于贝叶斯定理与特征条件独立假设的分类方法。对给定的训练集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型对给定的输入 x 利用贝叶斯定理求出后验概率最大的输出 y。
1. 原理
假定输入空间是 n 维的向量集合,输出空间为类标记集合 。X 是定义在输入空间上的随机向量,Y 是定义在输出空间上的随机变量。P(X, Y) 是 X 和 Y 的联合概率分布,训练数据集
由 P(X, Y) 独立同分布产生。
朴素贝叶斯通过训练数据集学习联合概率分布 P(X, Y) 。首先学习
先验概率分布:
条件概率分布:
由于条件概率分布有指数级的参数,朴素贝叶斯对条件概率分布做了条件独立性的假设,即:
朴素贝叶斯学习到生成数据的机制,属于生成模型。条件独立假设是指用于分类的特征在类确定的条件下都是条件独立的。
分类过程中,对给定的输入 x ,计算后验概率分布:
将条件概率分布代入,得到朴素贝叶斯分类器可表示为:
可以注意到,上述式子的分母对所有的 k 都是相同的,所以可以忽略,得到如下式子:
2. 参数估计
2.1 极大似然估计
在朴素贝叶斯中,学习意味着估计先验概率和条件概率,可以应用极大似然估计来估计相应的概率。
先验概率的极大似然估计是:
设第 j 个特征 的可能取值集合为 ,条件概率 的极大似然估计是:
2.2 算法流程
输入:训练数据 T,实例 x
输出:x 的分类
- 计算先验概率 和条件概率
- 对给定的实例计算 f(x)
- 确定 x 的类
2.3 贝叶斯估计
用极大似然估计可能出现要估计的概率为 0 的情况,此时会影响后验概率的计算,对此可以使用贝叶斯估计。条件概率的贝叶斯估计为:
参数 ,常取值为1 ,此时称为拉普拉斯平滑。
先验概率的贝叶斯估计是: