朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法。
4.1 朴素贝叶斯法的学习与分类
4.1.1 基本方法
输入空间n维向量的集合,输出空间为标记集合
.P(X,Y)是X和Y的联合概率分布。训练数据集
由P(X,Y)独立同分布产生。
朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。具体的,学习以下先验概率分布及条件概率分布。
先验概率分布: (4.1)
条件概率分布: (4.2)
于是学习到联合概率分布
朴素贝叶斯法对条件概率分布做了条件独立性假设。
(4.3)
朴素贝叶斯法实际上学习到生成数据机制,所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。
朴素贝叶斯法分类时,对给定的输入x,通过学习到的模型计算后验概率分布,将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行:
(4.4)
将(4.3)带入(4.4)中得
(4.5)
朴素贝叶斯分类器可表示为
(4.6)
因为4.6中分母对所有都是相同的,所以
(4.7)
4.1.2 后验概率最大化的含义
朴素贝叶斯法将实例分到后验概率最大的类中。等价于将期望风险最小化。假设选择0-1损失函数:
式中是分类决策函数。这时,期望风险函数为
期望是对联合分布P(X,Y)取的。由此取条件期望
为了使期望风险最小化,只需对X=x逐个极小化,由此得到:
根据期望风险最小化准则,得到了后验概率最大化准则:
这就是朴素贝叶斯法所采用的原理。
4.2 朴素贝叶斯法的参数估计
4.2.1 极大似然估计
在朴素贝叶斯法中,学习意味着估计和
,可以用极大似然估计法估计相应的概率。先验概率
的极大似然估计是
(4.8)
设第j个特征可能取值的集合为
,条件概率
的极大似然估计是
(4.9)
式中是第i个样本的第j个特征,
是第j个特征的第l个值;
为指示函数。
4.2.2 学习与分类算法
算法4.1(朴素贝叶斯算法)
输入:训练数据,其中
,
,
;实例x;
输出:实例x的分类。
(1)计算先验概率及条件概率
(2)对于给定的实例,计算
4.2.3 贝叶斯估计
用极大似然估计可能会出现所要估计的概率值为0的情况。这时会用影响到后验概率的计算结果,使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。条件概率的贝叶斯估计是
(4.10)
。等价于在随机变量各个取值的频数上赋予一个正数。当
时就是极大似然估计。
,为拉普拉斯平滑。
先验概率的贝叶斯估计是
(4.11)