统计学习方法——第4章 朴素贝叶斯法(个人笔记)
参考《统计学习方法》(第二版)李航
朴素贝叶斯法:基于贝叶斯定理与特征条件独立假设的分类方法。
4.1 朴素贝叶斯法的学习与分类
4.1.1 基本方法
训练数据集
先学习先验概率分布及条件概率分布
先验概率分布
条件概率分布
这样学习到联合概率分布
朴素贝叶斯法的条件概率分布假设条件相互独立的即条件独立性
朴素贝叶斯法分类时,对给定的输入x,通过学习到的模型计算后验概率分布,将后验概率最大的类作为x的类输出。
后验概率计算公式:
将条件独立性公式代入,
于是,朴素贝叶斯分类器为
由于分母对所有都是相同的,所以
4.1.2 后验概率最大化的含义
朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。假设选择0-1损失函数:
式中是分类决策函数。
这时,期望风险函数为
期望是对联合分布P(X,Y)取的。由此取条件期望
为了使期望风险最小化,只需对X=x逐个最小化,由此得到:
这样期望风险就等价于后验概率最大化准则。
4.2 朴素贝叶斯法的参数估计
4.2.1 极大似然估计
在朴素贝叶斯法中,学习意味着估计和。
的极大似然估计是
设第j个特征可能取值为,则的
极大似然估计为
4.2.2 学习与分类算法
算法4.1 (朴素贝叶斯算法)
输入:训练数据
输出:实例x的分类
(1)计算先验概率及条件概率
(2) 对于给定的实例,计算
(3)确定实例x的类
例子,
4.2.3 贝叶斯估计
由于极大似然估计可能会出现所要估计的概率值为0的情况。
解决这一问题,可以采用条件概率的贝叶斯估计是
其中。
当时,称为拉普拉斯平滑。
同样先验概率的贝叶斯估计为
例子,