统计学习方法 第4章 朴素贝叶斯法
学习与分类
朴素贝叶斯法 是基于贝叶斯定理与特征条件独立假设的分类方法,实现简单,学习和预测效率较高。
设输入空间X⊆Rn为n维向量的集合,输出空间Y={c1,c2,…,ck}。
朴素贝叶斯法通过训练数据集学习X和Y的联合概率分布P(X,Y)。具体步骤:
1. 学习先验概率分布
2. 学习条件概率分布
朴素贝叶斯法对条件概率分布作了条件独立性假设:
即假设用于分类的特征在类确定的条件下都是条件独立的。
分类时,对给定的输入x,通过学习到的模型计算后验概率分布,将后验概率分布最大的类作为x的输出。
后验概率计算根据贝叶斯定理:
于是朴素贝叶斯分类器可表示为:
即:
算法
- 用极大似然估计法估计先验概率和条件概率:
- 对给定的实例x,计算:
- 确定实例x的类:
贝叶斯估计
用极大似然估计可能出现所要估计的概率值为0的情况,会影响后验概率的计算,使分类产生偏差。解决这一问题的方法是采用贝叶斯估计:
其中λ>=0。常取λ=1,此时称为拉普拉斯平滑。