概述
在日常学习之中,我们经常能见到各种带有“贝叶斯”的词语,例如贝叶斯决策、朴素贝叶斯、贝叶斯估计,有时就会在诸如机器学习或者模式识别的课程上遇到它们中的一两个,学习的时候能把其中某个弄得清清楚楚,时间一长,反而这几个就有些混淆了,因此,集中进行学习整理。
总结来说,朴素贝叶斯包含于贝叶斯决策,贝叶斯决策与贝叶斯估计的任务不同,它们都是基于贝叶斯定理去解决不同的问题;贝叶斯决策任务在于学习一个分类器,贝叶斯估计的目的在于学习概率模型中的参数。
贝叶斯公式
通过一个例子来说明贝叶斯公式——癌细胞的识别,假设每个癌细胞经过预处理抽取出
d
个细胞基本特征,成为一个
根据医院统计资料可以对正常细胞和异常细胞的比例做出估计,这就相当于已知正常状态的概率 P(w1) 和异常状态的概率 P(w2) ,这被称为先验概率。那么有:
那么有贝叶斯公式:
其中 P(wi|x) 为状态的后验概率。
即可以通过类别状态的先验概率和特征观察值的类条件概率密度获得类别状态的后验概率,这就是贝叶斯公式所能做到的事情。
那么假设我们拿到一个新的待分类细胞,已知它的特征向量
x
,就可以通过贝叶斯公式计算在特征观察值为
按照决策规则的不同,贝叶斯决策可以分为最小错误率贝叶斯决策和最小风险贝叶斯决策,下面分开详述。
贝叶斯决策
最小错误率贝叶斯决策
依然考虑细胞分类的问题,在介绍贝叶斯公式小节中,我们已经知道通过贝叶斯公式可以来获得特征观察值为
x
的细胞属于类别
这就是基于最小错误率的贝叶斯决策,也就是说这种决策规则会使得错误率期望最小化(仿佛是废话,废话也要证明的)。
证明:
首先应指出,错误率是指平均错误率,或者说是错误率的期望,以
P(e)
来表示,其定义为:
其中,
可以看到,该决策规则对每个 x 始终选择
最小风险贝叶斯决策
依然考虑细胞分类的问题,考虑这么一种情景,如果医生把正常细胞判断为癌细胞则会给病人带来精神上的负担,如果把癌细胞判断为正常细胞则可能导致病人耽误了最佳的治疗时机,相比来说,后者的代价更大,此时,需要改进决策规则,以区别对待这两种情况,最小风险贝叶斯决策正是考虑各种错误的不同损失而提出的一种决策规则。
为清楚表达,我们首先定义一些符号:
1.特征的观察值
x
是
2.状态空间 Ω 由 c 个自然状态组成
3.决策空间 A 由 a 个决策
4.损失函数为 λ(αi,wj) ,表示当真实状态为 wj 而采取的决策为 αi 时所带来的损失
OK,符号定义结束,下面介绍基于最小风险的贝叶斯决策是怎么进行决策的,分为3步:
1.已知类别的先验概率
P(wj)
,类条件概率密度
p(x|wj)
,根据贝叶斯公式,计算后验概率:
2.使用已经算出的后验概率和决策损失表(就是定义了所有的 λ(αi,wj) 的表),计算采取决策 αi 的条件风险 R(αi|x)
把最小风险贝叶斯决策的步骤列出来,跟最小错误率贝叶斯决策的步骤对比,就很容易看出来,最小风险是最小错误率的升级版、特例。
当最小风险贝叶斯决策中的决策表满足以下条件时,最小风险退化为最小错误率:
贝叶斯决策小结
贝叶斯决策是一种统计决策理论,用于设计分类器,针对分类任务。
朴素贝叶斯
朴素贝叶斯就是朴素的贝叶斯决策,就是基于特征独立假设的贝叶斯决策,也就说,朴素贝叶斯是对贝叶斯决策进一步讨论。
类条件概率密度并不是已知
依然考虑细胞分类问题,在细胞的特征中,假设有两个特征:细胞液浓度、细胞核大小;
拿到一个待检测的细胞时,医生会观察这两个特征,那么这两个特征是相互独立的吗?或者说这两个特征是互不相关的吗?是互不影响的吗?
凭借我有限的高中知识,我觉得这两个特征多半不是互相独立的?我认为细胞液的浓度可能会印象细胞核的大小,或者细胞核的大小会通过某种复杂的生理反应,影响细胞液的浓度,总之,它们两个应该不是互相独立的。
那对我们构建分类器有什么影响呢?
无论是最小错误率贝叶斯决策还是最小风险贝叶斯决策,第一步都是根据贝叶斯公式,利用先验概率和类条件概率求后验概率:
其中
p(x|wi)
就是类条件概率密度,其中
x
是个特征向量
事实上,假设特征向量
x
的第
“朴素”——特征独立假设
于是采用一种办法来进行简化:
假设特征向量中的各个特征之间相互独立(虽然它们未必相互独立,但是为了可行性,只好这么假设),那么就有:
类条件概率密度函数的形式得到了大大地简化,本来一个拥有指数级别参数个数的类条件概率密度函数变成了很简单的累乘的形式;
单个特征的类条件概率密度 p(xj|wi) 还是很容易估计的,例如,假设 wi=异常细胞 , xj=细胞液密度 ,那么 p(xj|wi) 就表示异常细胞中细胞液密度的概率分布,这个很好估计对吧,只需要把医院历史诊断信息中的正常细胞信息筛选出来,然后统计一下细胞液密度的分布就可以了。
获得了类条件概率密度之后,就可以进行贝叶斯决策了。
朴素贝叶斯小结
贝叶斯公式以两个已知条件为前提:
1.先验概率已知。
2.类条件概率密度已知。
然而条件2不容易满足,因为往往面临多个特征,类条件概率密度函数参数过多,无法进行估计。
退让一步,假设特征两两之间相互独立,类条件概率密度的函数形式得到大大简化且易于估计,于是条件2得以满足。
朴素贝叶斯是对贝叶斯决策的展开讨论。
贝叶斯估计
(待)
说明
如有错误,敬请指正。