朴素贝叶斯
- 贝叶斯定理
- 全概率
- 朴素贝叶斯分类
贝叶斯定理
事件A 在事件B(发生)的条件下的概率,与事件B 在事件A(发生)的条件下的概率是不一样的;然而,这两者是有确定的关系的,贝叶斯定理就是这种关系的陈述。 —— [ 维基百科 ]
P(A∣B) 是在 B 发生的情况下 A 发生的可能性,在贝叶斯定理中下面有如下的名称表示。
P(A∣B) 是已知B 发生后A 的条件概率,也由于得自B 的取值而被称作A 的后验概率。
P(B∣A) 是已知A 发生后B 的条件概率,也由于得自A 的取值而被称作B的后验概率。
P(A) 是A 的先验概率(或边缘概率)。之所以称为”先验”是因为它不考虑任何B 方面的因素。
P(B) 是B 的先验概率或边缘概率。
全概率公式
举个例子:掷筛子可以看成是事件A,那么事件A发生可以分为
(A1,A2,A3,A4,A5,A6)
6个互斥的子事件。那么
P(A)
可以用如下式子进行计算:
P(A)=∑6i=1P(Ai)
对于一个事件B,通过以上的分析可以得出
P(B)=∑6i=1P(B,Ai)
那么
P(Ai∣B)
可通过如下公式计算:
朴素贝叶斯分类器
参考周志华老师的《机器学习》这本书,我理解如下:
对于任一个样本
x(x1,..xi).(i=1...n)
其属性从1到n。
假设有M种类别,即
Y(c1...cM)
那么朴素贝叶斯分类就是找到样本的后验概率
P(cj∣x).(j=1...M)
中最大的一个,将样本x分为概率最大的一类。
问题是:后验概率
P(cj∣x)
通常很难获得,可以根据贝叶斯定理间接获取
其中 P(c) 是类“先验”概率; P(x∣c) 是样本 x 相对于类标记 c 的类条件概率(似然); P(x) 是用于归一化的证据因子。对于给定样本 x 证据因子 P(x) 与类标记无关,因此估计 P(c∣x) 的问题就转化为如何基于训练数据 D 来估计先验 P(c) 和似然 P(x∣c) 。
类先验概率 P(c) 表达了样本空间中各类样本所占的比例,举例说明假设人类分为男士和女士。那么这两个类别所占的概率分布为1/2。
P(x∣c) 类条件概率主要有两种计算形式:第一种是自频率主义学派的极大似然估计,另一种是朴素贝叶斯。
极大似然估计
假设
P(x∣c)
具有确定的形式并且被参数向量
θc
唯一确定,任务是利用训练集D 估计参数
θc
, 我们记
P(x∣c)
为
P(x∣θc)
。
令
Dc
表示训练集D 中第c 类样本组成的集合,假设这些样本是独立同分布的,则参数
θc
对于数据集
Dc
的似然
然后对 θc 进行极大似然估计,寻找最大似然 P(Dc∣θc) 的参数值 θc
对数求
极大似然估计最后变成
这种情况下首先要知道 P(x∣c) 的概率密度函数。这种估计结果的准确性依赖所假设的的概率分布形式是否符合潜在的真实数据分布。
朴素贝叶斯分类器
类条件概率
P(x∣c)
是所有属性上的联合概率,难以从有限的训练样本直接估计,朴素贝叶斯器采用了“属性条件独立性假设”:对已知类别,假设所有属性相互对立。每个属性独立地对分类结果发生影响。
如果属性条件独立性假设
其中 n 为属性数目, xi 为 x 在第 i 个属性上的取值。
最后为得到的概率最大的分类:
这就是朴素贝叶斯分类器的表达式。