散记知识点
——“继续学习经典分类算法”
3. 贝叶斯分类法(Naive Bayesian)
贝叶斯分类法是统计学分类方法,基于贝叶斯定理。朴素贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库,贝叶斯分类法也表现出高准确率和高速度。
3.1 贝叶斯定理
设数据元组 X X 有 个属性,给定 X X 的 个属性值已知的条件下, X X 被认定为类别 的概率为 P(C|X) P ( C | X ) ,称为后验概率也即我们要求的概率。
P(X)、P(C) P ( X ) 、 P ( C ) 称为先验概率,其中 P(X) P ( X ) 可以用 X X 出现的概率来估计。比如,在顾客集合中,年龄为35岁且收入为4万美元的概率。 为类别的先验概率,可以用类 C C 在整个数据集出现的频率来估计。
是在类别为 C C 的条件下, 的后验概率。例如,已知类别为顾客 X X 购买计算机,则 的年龄为35岁收入为4万元的概率。
根据已知数据集 D D ,我们可以得到
,则在给定一个新的数据元组 X X ,来判断它是否属于某类的概率为
:(例如,已知年龄为30岁收入为3万美元顾客,则他会购买计算机的概率为:)
即为贝叶斯公式。
3.2 朴素贝叶斯分类
朴素贝叶斯分类法有个前提条件:为了简化运算,假设在给定类别 C C 的条件下,每个属性相互独立。这一假设称为类条件独立性,大大简化的计算量,故被称为“朴素”贝叶斯分类。
朴素贝叶斯分类的主要过程如下:
(1) 数据集 中,每个数据元组 X X 有 个属性 A1,A2,...,An A 1 , A 2 , . . . , A n 的属性值组成: X={ x1,x2,...,xn} X = { x 1 , x 2 , . . . , x n } 。同时,有 m m 个类 。
(2) 给定数据元组 X X ,使用贝叶斯定理预测 属于使得 P(Ci|X) P ( C i | X ) 最大的类