机器学习笔记—模式分类(一)贝叶斯决策论

典型的模式分类系统包括传感器、分割器(将物体与背景及其他物体分隔开来)、特征提取器、分类器和后处理器;分割涉及“子集和超集”问题,是“组织结构学”的研究内容,是研究部分与整体关系的一个学科领域。


1、引言

贝叶斯决策论的出发点是利用概率的不同分类决策与相应的决策代价之间的定量折中,其前提假设为决策问题可以用概率的形式描述并且所有有关的概率结果已知;后续还将考虑概率结构不完全知道的情况。

如果有某个观测值x使得P(w1|x)比P(w2|x)大,我们自然的会作出真是类别是w1的判决;最小化误差概率条件下的贝叶斯决策规则:

                                 如果P(w1|x)>P(w2|x),判别为w1;否则判别为w2

 

2、贝叶斯决策论-连续特征

贝叶斯公式中,对于连续特征,使用条件概率(类条件概率密度函数,或似然函数)和标量p(x)均使用概率密度函数p;对于离散特征则使用概率分布函数P。

                                                          贝叶斯公式:P(w_{j}|x)=\frac{p(x|w_{j})P(w_{j})}{p(x)}

其中P(wj)为先验概率,p(x|wj)为类条件概率密度,为wj关于x的似然函数,表明在其他条件都相等的情况下,使得p(x|wj)较大的wj更有可能是真实的类别。

最小化总风险下的贝叶斯决策规则:为最小化总风险,对所有判决行为i计算条件风险R(αi|x)并且选择行为αi使得该条件风险最小化,最小化后的总风险称为贝叶斯风险,它是可获得的最优结果

对于两类问题,行为α1表示判决类别为w1,行为α2表示判决类别为w2,最小化风险的贝叶斯决策规则为:

                             如果R(α1|x)<R(α2|x),则判别为w1;否则判别为w2                    

 

3、最小误差率分类

     最小误差率情况下的损失函数采用对称损失函数/0-1损失函数,该损失函数将0损失赋给一个正确的判决,而将单位1损失赋给所有错误的判决,在此损失函数下的最小化风险贝叶斯决策规则就是最小化误差概率贝叶斯决策规则

(1)极小化极大准则

     在先验概率未知的情况下,一种合理的设计分类器方法就是在先验概率取任意值时引起的总风险的最坏情况最小,即最小化最大可能的总风险;极小化极大风险值等于最坏的贝叶斯风险

(2)Neyman-Pearson准则

     最小化在某个约束条件下的总风险,如误判某类别的误差率不超过1%,通常通过调节判决边界的数值类满足Neyman-Pearson准则

4、分类器、判别函数即判定面

(1)多类情况

有多种方式表达模式分类器,其中用的最多的是判别函数gi(x)的方式,判决规则:

                                          如果对于所有的j!=i,有gi(x)>gj(x),则此分类器将特征向量x判决为wi

贝叶斯决策的基本思想非常简单,为最小化总风险,总是选择那些能够最小化条件风险R的行为,判别函数 为:

                                                                     {g_{i}}(X)=-R(\alpha _{i}|X) ,

尤其是为了最小化分类问题中的误差概率,总是选择那些使后验概率P(wj|x)最大的类别,判别函数为:

                                                                       g_{i}(X)=P(w_{i}|X)

贝叶斯公式可以通过先验概率P(wj)和条件密度p(x|wj)来计算后验概率;如果对在模式wi中所做的误分类的惩罚与模式wj中的不同,那么在做出判决行为之前必须根据该惩罚函数对后验概率加权

5、正态密度

贝叶斯分类器的结构可由条件概率密度p(x|wi)和先验概率P(wi)决定,常用的概率密度为多元正态函数/高斯密度函数。

正态分布在所有具有给定的均值和方差的分布中具有最大熵(熵为非负数,描述从一种分布中随机选取的样本点值的不确定性),根据中心极限定理,大量的小的、独立的随机分布的综合等效为高斯分布。

从正态分布中所抽取的样本点趋向于落在一个单一的云团或者聚类中,聚类中心由均值向量决定,聚类的形状由协方差矩阵决定。

6、正态分布的判别函数

通过多元正态分布的概率密度函数计算判别函数gi(x),进而进行最小误差概率下的分类判决

(1)Σi=\sigma ^{2}I

各类别特征统计独立,且具有相同的方差\sigma ^{2},此时协方差矩阵为对角阵\sigma ^{2}I,几何上对应样本落在相等大小的超球体聚类中的情况。

由最小化误差概率下的贝叶斯决策判别函数,可推导出该种正态分布情况下的判别函数为一线性判别函数gi(x)=wi(T)*x+wi0,使用线性判别函数的分类器称为线性机器。两类情况下判定面为超平面。

(2)Σi=Σ

所有类别的协方差矩阵都相等,但均值向量不同,几何上对应样本落在相同大小和相同形状的超椭球体聚类中。

由最小化误差概率下的贝叶斯决策判别函数,可推导出该种正态分布情况下的判别函数也是一线性判别函数gi(x)=wi(T)x+wi0。两类情况下判定面为超平面。

(3)Σi=任意

各个类别的协方差矩阵不同,均值向量也不同。

由最小化误差概率下的贝叶斯决策判别函数,可推导出该种正态分布情况下的判别函数为二次型判别函数gi(x)=x(T)*Wi*x+wi(T)*x+wi0。两类情况下判定面为超二次曲面,可为超平面(对)、超球体、超椭球体、超抛物面、超双曲面等。

7、误差概率和误差积分

误差概率为P(error),两类情况下可直接计算分类区域R1和分类区域R2上的相关概率密度积分。

多类情况下出错的方式比正确的方式多因此计算正确分类的概率P(correct)相对简单,其计算结果既不取决于特征空间如何被划分为判决区域,也不取决于内在的分布形式,贝叶斯分类决策方法通过选择对所有x使P(correct)中被积函数最大的区域来最大化P(correct)。

没有其他的分类方法可以比贝叶斯判决规则产生更小的误差概率。

8、正态密度的误差上界

高斯情况下的误差率的计算过程相当复杂,因为积分范围中的判决区域不连续,但是两类情况下的P(error)可以近似的给出一个误差率的上界Chernoff界,即使exp(-k(β))最小的β值所对应的P(error)上界;取β值为1/2时获取的近似上界为Bhattacharyya界

使用接收机操作特性曲线(ROC,击中率关于虚警率的曲线)可以有效地区分开判别能力d'和决策偏差,判别能力是系统的一种固有属性,决策偏差取决于接收器在内在的可调整损失矩阵

9、贝叶斯决策论-离散特征

特征向量x中的元素为离散数值时,贝叶斯公式中的概率密度函数p由概率分布函数P代替,条件风险的定义不变,贝叶斯决策论的判决规则不变,通过最大化后验概率来最小化误差概率的基本原则也不变。

对于两类问题,假设特征向量的元素为二值且条件独立,则由最小化误差概率下的贝叶斯决策判别函数,可推导出该种独立二值特征情况下的判别函数为线性判别函数g(x)=Σwi*xi+w0,权重wi的幅值表示进行分类时xi与一个“是”的回答相关联的程度。特征独立的条件将产生简单的线性分类器,如果特征不独立,将需要更加复杂的分类器。

10、丢失特征和噪声特征

假定已经利用未受损的数据训练了贝叶斯分类器,但输入的测试数据(待识别/分类数据)收到破坏,通过尽可能多的恢复出内在分布信息后再使用贝叶斯判决规则,可以对受破坏的输入数据进行分类以获得最小的误差率。

(1)丢失特征

假设x=[xg,xb]是由已知完好的特征量xg和丢失/损坏的特征量xb组成,那么通过用好的特征量表示的后验概率P(wi|xg)作为判别函数应用贝叶斯规则即可进行分类,即如果对于所有的i!=j有P(wi|xg)>P(wj|xg),则判决分类为wi

(2)噪声特征

假设已知完好的特征量xg,受噪声干扰的特征量为xb,xt为观测到的xb的真实值即无噪声情况下的测试值,噪声模型为p(xb|xt),假设xt已知,xb与wi和xg独立,那么通过后验概率P(wi|xg,xb)作为判别函数应用贝叶斯规则即可进行分类

噪声特征下的判别函数与丢失特征下的判别函数区别在于前者被积函数受噪声模型加权,极端情况下噪声模型p(xb|xt)=1即不提供有关类别的任何预测信息,则噪声特征下的判别函数与丢失特征下的判别函数相同。

11、贝叶斯置信网

前述仅仅假设存在一个可通过特征向量来描述的参数化分布形式,如果实现有关于参数本身分布或者各个特征分量之间的统计相关/独立性的先验信息,那么可以利用这些先验信息。

假设有一个置信网,已知条件概率和其中部分状态的值/概率,通过应用贝叶斯规则/推断可以确定出网络中未知变量的最大后验值。节点X上的一系列x=(x1,x2,...)的置信度描述了在给定网络所有其余部分的证据e的前提下这些变量之间的相关概率即P(x|e)

                                                         P(x|e)\propto P(e^{C}|x)P(e^{P}|x)

一个给定的置信网可以推断出所有的未知变量。当某个分类器所利用的各特征间的依赖关系未知时,常采用最简单的假设,即给定类别下各特征量是条件独立的

                                                             p(w_{k}|x)\propto \coprod_{i=1}^{d}p(x_{i}|w_{k}))

实践中这种朴素/傻瓜贝叶斯规则常常工作很好,并且可由一个简单的置信网来表示。

12、复合贝叶斯决策论及上下文

前面假设类别状态序列是不可预知的,即把类别状态看成一个随机变量,在该假设下考虑利用连续出现的类别之间存在统计相关性的情况,有可能提高分类器的性能,这就是利用上下文信息来辅助判决。

利用上下文信息有两种做法:(1)复合判决,相对简单,等待n个输入出现并同时做出n个判决;(2)每一个输入出现时结合上下文信息做一次判决。

复合判决情况下,可计算n个类别标记向量W的后验概率P(W|X),X为n个输入向量矩阵,通常可以为复合判决定义一个损失矩阵并寻找一种最小化复合风险的判决规则。实际中P(W|X)的计算非常复杂,且类别的各状态xi相互独立的假设不成立。

 

【码字不易,如果有所帮助,欢迎关注点赞】

 

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值