线性判别函数、判定面以及感知器

线性判别函数和判定面

标签: 模式分类


线性机

不知道你还记不记得前面讲过的判别函数的问题(见概述,贝叶斯策略,最大似然估计
一个”判别函数”是指由x的各个分量的线性组合而成的函数: g(x)=wTx+w0
这里w是”权向量”,w0被称为”阈值权”或者”偏置”,一般情况下有c个这样的判别函数,分别对应c类中的一类,我们总是选取gi取得最大值的那个类型(希望明白的是,这个是使得后验概率最大的那个类型,而有一种可能的线性判别函数是源于分布为正态分布,而且假设Σi=σ2I
其实上面那种定义判别函数得到的分类器叫做”线性机”,线性机把特征空间分为c个判决区域Ri(i=1 ... c),当xRi中时,gi取得最大值,如果ij,gi=gj可以得到一个将RiRj分开的超平面Hij

实际上线性机的判决区域是凸的,是往往是单联通的,这使得它为条件概率密度p(x|wi)为单峰的问题设计线性机是比较适合的


广义线性判别函数

实际上在线性判别函数g(x)=wTx+w0加上额外的项,就可以很容易得到二次判别函数(考虑对应高斯分布是哪种情况)

g(x)=w0+i=1dj=1dwijxixj wij=wji

甚至你可以加入更高次的项,于是可以愉快地得到多项式判别函数,实际上这可以看成某一种判别函数g的泰勒展开忽略更高阶的无穷小

g(x)=i=1d^aiyi(x)

或者

g(x)=aTy

这里a是d^维权向量,d^个分量函数yi(x),有时候被称为φ函数,可以是x的任意函数。这样的函数对应特征提取子系统的结果,通过巧妙选择这些函数,并使得d^足够大,就可以通过这样的展开来逼近任何想要的判决函数。
换句话说,就是你对原始数据做一个映射,映射到一个新的特征空间上,然后在特征空间进行线性判别,但实际上,如果维度过高,会带来很严重的”维度灾难”,使得它往往很难实际应用。


两类线性可分

假设我们有一个包含n个样本的集合,#y_1,y_2,\ … \ y_n#,一些标记为#w_1#,另一些标记为w2,我们希望这些样本确定判别函数g(x)=aTy的权向量a。我们有理由相信有一个解,它产生错误的概率非常小,那么很合理的想法是寻找一个能把这些样本都正确扥类的权向量。假如这个权向量存在,那么这些样本被称为“线性可分”的。
对于一个样本yi,如果aTyi>0,就标记为w1,如果aTyi<0,则标记为w2,特别的,如果取了等号,就不做区分,这样我们可以用一种”规范化”(normalization)操作来简化两类样本的训练过程,也就是说属于w2的样本,用负号表示,由此,我们寻找一个对于所有样本都有aTyi向量a,这样的向量叫做“分离向量”(separating vector)更正规的说法是”解向量”(solution vector)

几何解释或术语

求解权向量的过程可认为是确定“权空间”(weight space)中的一点,每个样本都对解向量的可能位置给出限制。等式aTyi=0确定了一个穿过权空间远点的超平面,yi为其法向量。解向量,如果存在,必须在每个超平面的正侧,而且必须在N个正半空间的交叠区,而且该区域中的任意向量都是解向量,我们称这样的区域叫做“解区域”(solution region),下面两图分别给出了规范化前和规范化后的解区域图像
解向量图.png-414.5kB

感知器最小化原则

考虑构造解线性不等式aTyi>0的准则函数问题,最显然的选择是假设J(a;y1, ... yn)为被a分成错的样本数,但是这个函数是个分段的常值函数(显然取值为自然数),对梯度搜索不是一个很好的选择,一个更好的选择是令感知器准则函数(perceotron criterion function):

Jp(a)=yY(aTy)

这里的Y(a)是被a分错的样本集(如果都分对了,显然Y是空集),由于aTy0, 所以J(a)是非负的(从几何上知道,J(a)和分错样本到判决边界距离之和成正比的)我们可以轻松根据下列方程,让这个距离达到最小值

Jp=yY(y)a(k+1)=a(k)+η(k)yYky

阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/lancelot_vim/article/details/51540729
个人分类: 模式分类
上一篇切空间距离
下一篇马尔可夫决策过程
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭