知识架构(P1+P2)
- 概要
- 最小误差率贝叶斯决策
- 最小风险贝叶斯决策
- 分类器设计
- 高斯密度下的判别函数
1.1 概要
先验概率:根据经验或以往数据分析得到的概率。
后验概率:在得到数据后再重新加以修正的概率。
概率密度函数:描述随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域的积分。当概率密度函数存在时,累积分布函数是概率密度函数的积分。概率密度函数一般以小写标记
。
类条件概率密度函数:假定x是一个连续随机变量,其分布取决于类别状态p(x|ω)。即类别状态为ω时的x的概率密度函数。
特征空间 :特征向量所处的d维欧几里德空间,记作
。
贝叶斯决策论的出发点事利用概率的不同分类决策与响应的决策代价之间的定量折中。它做出了如下假设:即决策问题可以用概率的形式来描述,且假设所有有关的概率结构已知。
损失函数:,表示当类别为
时所采取的决策
所引起的损失,简记为
。
判别函数:用于表达决策规则的某些函数。通常定义一组判别函数用于表示多类决策规则。如果
对任意
均成立,则将
归于
类。参照贝叶斯决策规则,可以定义一系列判别函数:
决策面:对于c类分类问题,按照决策规则可以把d维特征空间分成c个决策区域,划分决策区域的边界即为决策面。这些决策面是特征空间中的超曲面,显而易见相邻的两个决策面上,其判别函数值相等。即,如果
和
相邻,则它们的决策面方程满足
。
等密度轨迹:高斯密度下判别函数中,等密度轨迹为一超椭球面(其主轴方向由矩阵的特征向量决定,主轴的长度与其本征值成正比)。从多元正态分布可知,当其指数项等于常数时,密度p(x)的值不变,因此等函数点几位使用如下方程所得常数的点,即:
协方差:用于衡量两个变量的总体误差,使两个变量总体误差的期望,如对两个随机变量X和Y之间的协方差记作Cov(X,Y)。
协方差矩阵:是对两个随机标变量到高维度随机向量的推广。设为n维随机变量,则称矩阵
为n维随机变量X的协方差矩阵,记作D(X),其中
为X的分量
和
的协方差。
马氏距离:样本x到中心μ的计算遵循下式:
欧式距离:
1.2 最小错误率决策
问题描述:
对一个c类问题,特征矢量
,已知先验概率
和条件概率密度函数
。其任务是对观测到的样本
,选择将其分到哪一类最合理(误差率最小)?
贝叶斯决策:
后验概率:
决策规则:
错误率:
最小错误率:
贝叶斯决策的几种等价形式:
1.3 最小风险决策
在实际应用场景中,仅仅使决策的错误率最小还不够,还应该对做出判断后产生的风险进行考虑。所以引入了损失的概念,在考虑错判造成的损失时,不仅仅根据后验概率大小来做为决策,而必须考虑所采取的决策是否损失最小。对于给定的x,考虑对其做出决策,但
具体在哪个类别状态未知,因此要考虑条件风险。
问题描述:对c类问题,,特征矢量
,已知先验概率
,条件概率密度函数
,决策空间包含a个决策
,和损失函数
。其任务是:如果观测到一个样本
,应该将其分到哪一类使其风险最小?
条件风险与期望风险:
条件风险:,是随机变量
的函数,可计算如下:
期望风险:,将决策规则视为随机变量
的函数。对特征空间中所有可能的样本
采取的决策所造成的期望损失是:
最小风险贝叶斯决策就是最小化期望风险。
计算步骤:
- 利用贝叶斯公式计算后验概率:
- 利用决策计算风险:
- 在各种决策中选择风险最小的决策:
两类情形:对两类情形,没有拒识的情况(a=c=2),有:
其决策规则为:
即:
其他等价形式:不失一般性,可以假设,于是也可将决策规则表示为:
和
0-1 loss:在分类问题中,通常每种类别状态都与c类中的一种有关,且决策通常被解释为类别状态,被判决为
。如果采取决策
而实际类别为
,那么在i=j的情况下判据正确,否则产生误判。要避免误判,就要寻找一种判别规则使误判概率(误差率)最小化。这种情况下的损失函数就是“0-1损失”,或称为“对称损失”函数:
该损失函数对应的风险即是平均误差概率,因为条件风险为:
最小化平均误差率(MAP):
对任给i≠j,如果,则判为
。
1.4 分类器
分类器设计:分类器可以看作是计算出c个判别函数,在从中选出对应于判别函数为最大值的类作为分类结果的机器。
两类情形下的判别函数:
对于两类情形,只需要定义一个判别函数:
两类情形下的决策面方程:g(x)=0。当x为一维时,决策面为一个点;当x为二维时,决策面为一条线;三维时,决策面是一个面,高维则为一个超曲面。
分类错误率:
讲误差概率和和误差积分,注意该知识点本应放在正态分布的判别函数之后,但是因为排版问题先放在这里。
- 两类情形下的平均错分概率:
- 多类情形下的平均错分概率:
- 多类情形下的平均分类精度:
小结
- 事实上能知道一些概念公式很容易,但是深入理解和熟练运用却需要耗费很大功夫。贝叶斯决策论的理解基于对条件概率、全概率公式与贝叶斯公式的理解。而关于正态分布判别函数则需要扎实的对正态分布及其相关性质有全面的了解。
- 这一章中基本围绕两类情形展开。
- MD的公式编辑器好难用。
- 在这章中需要掌握一些“距离”的概念,关于距离(欧式距离、闵氏距离、马氏距离、曼哈顿距离、余弦距离、汉明距离等)可以参阅专栏:[地址]