李哈哈的模式识别笔记【part 2:线性分类器】
线性判别与非线性判别
分类决策边界:
在特征空间中找到一条类别之间的界限,来判断待识别样本位于界限的哪一侧,这条界限称为“分类决策边界”。
分类决策规则表示的判别函数若为一个线性函数,就称为线性判别函数。
线性判别函数及其对应的分类决策规则,构成了一个线性分类器。
几个集合的定义:
凸集:集合内两元素连线仍在集合内
凹集:集合内有的元素连线不在集合内
凸包:凹集区域的最小的凸集包络线
广义线性化:
将一个模式识别问题从低维特征空间映射到高维特征空间时,可以将一个非线性分类问题,转化为一个线性分类问题。
多分类线性判别
线性判别函数通式:
G(x)=w^t*x+w0
绝对可分:
样本集中的每一个类,都有一个线性判别函数,可以把属于这一类和不属于这一类的样本分开,这种情形称为绝对可分。
但这样容易出现不可识别区域。
两两可分:
若可以对每两个类用线性判别函数区分,可以减小不可识别区域,从而性能更好。
但同时,判别函数的数量会大大增加:若有k个类别,判别函数前者是k个,后者是k中所有两两组合。
最大值可分:
此时,样本集中的每个类别对应一个判别函数,而样本将被划分到取值最大的判别函数对应的类别中。
这样,可以完全消除不可识别区域,且判别函数和类别数量相同,而难点在于如何确定判别函数。
线性判别函数的几何意义
绝对值表示样本到决策边界的距离
正负号代表在决策边界的哪一侧