Fisher discrimination criterion (费舍尔判别准则)
Fisher 线性分类器由R.A.Fisher在1936年提出,至今都有很大的研究意义。
- 【基本思想】:投影,使多维问题转化为低维问题来进行处理。选择一个适 当的投影轴,使所用的样本点都投影到这个轴上得到投影值,使得【投影后】同一类样本所形成的投影值的之间距离尽量的小,而不同类之间的投影值之间距离尽可能大。
- 【通俗解释】:Refrence网址:
我们来判断一个东西是人,猴,猪,狗?四个总体,可以包含几个分量,比如重量,身高,智商,情商这四个分量,所以现在有了四个总体(分别是四维向量),期望和协方差阵已知,给出一个输入向量(必然是四维向量),判断这个东西是哪一类,此为判别问题。
费舍尔判别是将输入向量X,乘以向量A,变成y,即:y=a’x;a 在这里是一个四维向量,这样把四维变一维。费舍尔判别最重要的就是求 a .求得的a应该满足能够有利于这个输入向量判定 的目的。
因为对输入x做了转化,所以对四个总体也要变化一下,期望u 变成a’u,协方差阵v 变成a’va, 这样期望和方差都成了一维的,为了分类准确,肯定是类的组内距离最小,组间距离最大,而且是组间距离除以组内距离的比值最大,这样可以构成一个 方程,当然是含有向量的,这个方程的解有公式定理,其实这个a 就是 一个特征向量,求出a 后,那么:判别函数 y=a’x 就知道了, 求四个差值|a’x-a’u| 哪个u使得这个差最小 ,那么x就是哪一类 。
费舍尔判别就是 求一个 函数:y=a’x ,将多维向量变成一维 ,还是线性的,然后就和一维判别一样,求它和期望的最小值就行了。 - Fisher准则函数Reference
【Fisher准则函数】
在模式识别的分类算法中,大概可以分为两类,一种是基于贝叶斯理论的分类器,该类型分类器也称为参数判别方法,根据是基于贝叶斯理论的分类器必须根据所提供的样本数据求出先验概率和类概率密度函数的类型和参数;另一种是非参数判别方法,它倾向于由所提供样本数据直接求出在某一准则函数下的最优参数,这种方法必须由分类器设计者首先确定准则函数,并根据样本数据和该函数最优的原理求出函数的参数。基于贝叶斯理论的分类器对于设计者来说比较死板和原则,它必须知道类概率密度函数和先验概率才能估算出判别函数,但是实际上样本数据的类概率密度函数的类型和参数都是不知道的,这给参数判别方法带来了麻烦;而非参数方法的优点在于,当设计者设计好准则函数之后,便可用样本数据优化分类器参数,难点在于准则函数的设计,因此,两种方法各有千秋,互为补充!
设样本d维特征空间中描述,则两类别问题中线性判别函数的一般形式可表示为:
其中WT表示垂直于超平面的法向量,在二维的情况下,便是判别直线的法向量,W0称为阈权值,它只决定超平面在空间上的上下或者左右平移的位置。
在使用线性分类器时,样本的分类由其判别函数值决定,而每个样本的判别函数值是其各分量的线性加权和再加上一阈值w0。如果我们只考虑各分量的线性加权和,则它是各样本向量与向量W的向量点积。如果向量W的幅度为单位长度,则线性加权和又可看作各样本向量在向量W上的投影。显然样本集中向量投影的分布情况与所选择的W向量有关。如下图:
红色跟蓝色分别为两类样本,显然,从分类的角度来看,W1要比W2要好,因此,Fisher准则函数的基本思路是向量W的方向选择应能使两类样本投影的均值之差尽可能大些,而使类内样本的离散程度尽可能小。
为了给出Fisher准则函数的数学定义,我们必须定义一些基本参量,如下:
- 【样本在d维特征空间的一些描述量】
(1) 各类样本均值向量mi
(2) 样本类内离散度矩阵Si与总类内离散度矩阵Sw
注释:类内离散矩阵Si在形式上与协方差矩阵很相似,但协方差矩阵是一种期望值,而类内离散矩阵只是表示有限个样本在空间分布的离散程度
- 【样本在一维Y空间中的一些描述】
(1) 各类样本均值
(2) 样本类内离散度 和 总类内离散度
在定义了上述一系列描述量后,可以用这些量给出**Fisher准则的函数形式。根据Fisher选择投影方向W的原则,即使原样本向量在该方向上的投影能兼顾类间分布尽可能分开,类内样本投影尽可能密集的要求,用以评价投影方向W的函数为:
显然,准则函数的函数值跟总类内离散度成反比,跟样本差值的均方成正比,也就说,两类样本的均值相差越大,函数值越大,反之,则越小,类内离散度越小,函数值越大,反之则越小。同一类的样本,离散度应该要小。
各最优参数的确定
前面已提到,在非参数判别分类方法中,首先必须确定准则函数(假设样本是线性可分的),然后根据样本集求出使得准则函数达到极值的分类器参数,对于线性分类器,其典型形式为:
,因此需要确定WT和wo两个分类器参数。
-
分类器参数确定
关于Fisher的上一篇文章提到,其准则函数为:
最佳分类器参数的确定实际上就是求取上式达到极值的W, 因此令拉格朗日乘法算子为
上式对W求导得:
整理之后得:
由上式见,这是典型的求取特征值和特征向量的问题。以下进行数学简化:
得到:
实际上,我们只关心W的方向,其大小对分类结果没有任何影响,从上式可以看到,(m1 - m2)为两类样本的均值向量,从两类样本被分的最远的效果来看,那么与向量(m1 - m2)平行的向量投影将两类分的最开。但是如从使类间分得较开,同时又使类内密集程度较高这样一个综合指标来看,则需根据两类样本的分布离散程度对投影方向作相应的调整,这就体现在对向量(m1 - m2)作线性变换的
,其中Sw为总类内离散度。 -
分类器函数w0的确定。
(1) 知道先验概率P(W1)和P(W2)
若知道先验概率和各样本数量,可以根据以下公式计算W0
(2) 若未知先验概率,可以按照下式计算:
- 关于先验概率和后验概率的通俗解释。
Reference: https://zhuanlan.zhihu.com/p/26464206
为了很好的说明这个问题,在这里举一个例子:
玩英雄联盟(lol)占到中国总人口的60%,不玩英雄联盟的人数占到40%:
为了便于数学叙述,这里我们用变量X来表示取值情况,根据概率的定义以及加法原则,我们可以写出如下表达式:
P(X=玩lol)=0.6;P(X=不玩lol)=0.4,这个概率是统计得到的,或者你自身依据经验给出的一个概率值,我们称其为先验概率(prior probability);
另外玩lol中80%是男性,20%是小姐姐,不玩lol中20%是男性,80%是小姐姐,这里我用离散变量Y表示性别取值,同时写出相应的条件概率分布:
P(Y=男性|X=玩lol)=0.8,P(Y=小姐姐|X=玩lol)=0.2
P(Y=男性|X=不玩lol)=0.2,P(Y=小姐姐|X=不玩lol)=0.8
那么我想问在已知玩家为男性的情况下,他是lol玩家的概率是多少:
依据贝叶斯准则可得:
P(X=玩lol|Y=男性)=
P(Y=男性|X=玩lol)*P(X=玩lol) / [ P(Y=男性|X=玩lol)*P(X=玩lol)+P(Y=男性|X=不玩lol)*P(X=不玩lol)]
最后算出的P(X=玩lol|Y=男性)称之为X的后验概率,即它获得是在观察到事件Y发生后得到的