【第21期】观点:人工智能到底用 GPU?还是用 FPGA?

线性判别函数、判定面以及感知器

原创 2016年05月30日 20:13:46

线性判别函数和判定面

标签: 模式分类


线性机

不知道你还记不记得前面讲过的判别函数的问题(见概述,贝叶斯策略,最大似然估计
一个”判别函数”是指由x的各个分量的线性组合而成的函数: g(x)=wTx+w0
这里w是”权向量”,w0被称为”阈值权”或者”偏置”,一般情况下有c个这样的判别函数,分别对应c类中的一类,我们总是选取gi取得最大值的那个类型(希望明白的是,这个是使得后验概率最大的那个类型,而有一种可能的线性判别函数是源于分布为正态分布,而且假设Σi=σ2I
其实上面那种定义判别函数得到的分类器叫做”线性机”,线性机把特征空间分为c个判决区域Ri(i=1 ... c),当xRi中时,gi取得最大值,如果ij,gi=gj可以得到一个将RiRj分开的超平面Hij

实际上线性机的判决区域是凸的,是往往是单联通的,这使得它为条件概率密度p(x|wi)为单峰的问题设计线性机是比较适合的


广义线性判别函数

实际上在线性判别函数g(x)=wTx+w0加上额外的项,就可以很容易得到二次判别函数(考虑对应高斯分布是哪种情况)

g(x)=w0+i=1dj=1dwijxixj wij=wji

甚至你可以加入更高次的项,于是可以愉快地得到多项式判别函数,实际上这可以看成某一种判别函数g的泰勒展开忽略更高阶的无穷小

g(x)=i=1d^aiyi(x)

或者

g(x)=aTy

这里a是d^维权向量,d^个分量函数yi(x),有时候被称为φ函数,可以是x的任意函数。这样的函数对应特征提取子系统的结果,通过巧妙选择这些函数,并使得d^足够大,就可以通过这样的展开来逼近任何想要的判决函数。
换句话说,就是你对原始数据做一个映射,映射到一个新的特征空间上,然后在特征空间进行线性判别,但实际上,如果维度过高,会带来很严重的”维度灾难”,使得它往往很难实际应用。


两类线性可分

假设我们有一个包含n个样本的集合,#y_1,y_2,\ … \ y_n#,一些标记为#w_1#,另一些标记为w2,我们希望这些样本确定判别函数g(x)=aTy的权向量a。我们有理由相信有一个解,它产生错误的概率非常小,那么很合理的想法是寻找一个能把这些样本都正确扥类的权向量。假如这个权向量存在,那么这些样本被称为“线性可分”的。
对于一个样本yi,如果aTyi>0,就标记为w1,如果aTyi<0,则标记为w2,特别的,如果取了等号,就不做区分,这样我们可以用一种”规范化”(normalization)操作来简化两类样本的训练过程,也就是说属于w2的样本,用负号表示,由此,我们寻找一个对于所有样本都有aTyi向量a,这样的向量叫做“分离向量”(separating vector)更正规的说法是”解向量”(solution vector)

几何解释或术语

求解权向量的过程可认为是确定“权空间”(weight space)中的一点,每个样本都对解向量的可能位置给出限制。等式aTyi=0确定了一个穿过权空间远点的超平面,yi为其法向量。解向量,如果存在,必须在每个超平面的正侧,而且必须在N个正半空间的交叠区,而且该区域中的任意向量都是解向量,我们称这样的区域叫做“解区域”(solution region),下面两图分别给出了规范化前和规范化后的解区域图像
解向量图.png-414.5kB

感知器最小化原则

考虑构造解线性不等式aTyi>0的准则函数问题,最显然的选择是假设J(a;y1, ... yn)为被a分成错的样本数,但是这个函数是个分段的常值函数(显然取值为自然数),对梯度搜索不是一个很好的选择,一个更好的选择是令感知器准则函数(perceotron criterion function):

Jp(a)=yY(aTy)

这里的Y(a)是被a分错的样本集(如果都分对了,显然Y是空集),由于aTy0, 所以J(a)是非负的(从几何上知道,J(a)和分错样本到判决边界距离之和成正比的)我们可以轻松根据下列方程,让这个距离达到最小值

Jp=yY(y)a(k+1)=a(k)+η(k)yYky

版权声明:本文为博主原创文章,未经博主允许不得转载。 举报

相关文章推荐

线性判别函数

模式识别(Pattern Recognition)学习笔记(七)——线性分类器及线性判别函数

1.为什么要设计分类器?        回顾下前面学习的统计决策,也就是贝叶斯决策,它可以简单被划分为两步,首先根据样本进行PDF估计,然后根据估计出的PDF来求分类面,因此又经常被叫做两步贝叶斯决策...

线性判别分析(LDA), 主成分分析(PCA)

参考:http://blog.csdn.net/xiazhaoqiang/article/details/6579059</s

模式识别:感知器的实现

在之前的模式识别研究中,判别函数J(.)的参数是已知的,即假设概率密度函数的参数形式已知。本节不考虑概率密度函数的确切形式,使用非参数化的方法来求解判别函数。由于线性判别函数具有许多优良的特性,因此这...

矩阵奇异值分解SVD,线性判别LDA,主元分析PCA

一 特征值分解: 对于方阵A进行特征值分解有: <span style="fon
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)