在引入分割超平面和支持超平面的概念之前,首先简要介绍一下集合中的泛化不等式和最值为题。
1. 真锥
首先我们定义一个概念——真锥(proper cone),一个凸锥 是真锥,如果满足:K是凸集;K是闭合的;K是实心的(内部非空,如射线不是真锥);K是点集(不包含直线,也就是说如果 和 都属于该凸锥,那么 )。 在真锥上我们可以定义泛化不等式(generalized inequalities)中点大小的关系(partial ordering): 。该式表示在集合K下,点x恒小于y,即点x的各个分量 。当 ,在高维空间上的泛化不等式与一维上数字间的大小比较的定义相同。泛化不等式具有以下性质:
- 可加性:如果 ,同时, ,则 ++ ;
- 传递性:如果 ,同时, ,则 ;
- 自反性:如果 ,同时, ,则 ;
- 反对称性: ;
- 极限保持性:如果 ,同时, ,则 ,当 。
2. 最值和极值
由于高维空间与一维空间不同,我们无法将一维空间的线性顺序(linear ordering)延伸到高维空间用于比较点的大小。所以,高维空间中的最值和极值的定义相对低维空间就变的复杂一些。我们定义集合 的最小值(minimum element)为对于所有点 , ,如果集合存在最值,那么有且仅有一个点存在(unique)。我们定义集合 的极小值(minimal element)为对于点 ,仅当 时,才会满足 。
对于集合而言,我们可以利用集合的定义说明集合最值的问题,集合 中的元素 为最小值,当且仅当 ,这里 表示所有点的都大于等于x,即 ;极小值则为 。例如,对于二维空间 ,如果点x为最小值点,则最小值意味着空间内所有的点都位于点x的右上方,极小值则表示没有其他的点位于点x的左下方。
如下图,点 为集合 的最小值,因为对于 (浅色阴影部分)而言, ,集合 内的其他点则不满足该条件;对于点 ,其为集合 的极小值,因为满足 ,其中浅色阴影部分代表 - 部分,很明显,极小值并不是唯一的,因为点 所在的直线上均为集合的极小值。
3. 分割超平面(分离超平面)
在上一讲中我们提到了仿射函数的概念,仿射函数可以简单理解为对于空间集合的线性变换,这里所讲的超平面分割理论(separating hyperplane theorem)是指:如果存在两个并查集合 和 (disjoint set, ),且这两个集合都为凸集,则必然存在一个超平面(之前讲过超平面既是凸集又是仿射集)使得对于集合 中所有点x满足 ,集合 中所有点x满足 ,换言之,仿射函数 在集合C上非正,在集合D上非负。超平面 称为集合C和D的分割超平面,如下图。
接下来证明超平面分割理论,假设集合C和D间的欧几里德距离(Euclidean distance)为 其中,点 和 是两个集合中距离最近的点的组合。那么,我们将会证明分割超平面位于线段 的正中间(the separating hyperplane is orthogonal to, and bisects, the line segment between and )。
因为点
和
是距离最近的点,
,我们定义
,
,所以仿射函数可以变换成:
从上式可以看出,如果超平面分割理论成立的话,仿射函数在C上非正,在D上非负。如果平面分割理论不成立的话,必然会在集合D上存在一点
使得
。则
可写为:
很明显,
。同时,我们可以构造出微分函数
,当t=0时,
。
该式意味着函数 在 = 处一阶导数为负数,函数在 = 处呈递减趋势。所以,当 时(在0点右侧), 。即, 。该式表明,必然存在一点 使得该点到点c的距离小于点d到点c的距离,这与最开始的点c和点d是最近的亮点的假设相违背,所以证明出超平面分割理论的正确性,即两个不相交凸集间必然存在一个分割平面能将两个集合分开。
那么,超平面分割定理的逆定理是否正确呢?是否可以证明两个凸集如果存在超平面能将集合分开,那么这两个集合必然是不相交的集合呢?答案是否定的,因为如果集合 ,则存在超平面 将两个集合分开。但是,如果集合 和 之间至少有一个是开集的话,那么该定理成立,因为,如果存在该超平面且 为开集,则超平面对应的仿射函数必然在集合 上为负,在D上为非负。
平面分割定理的逆定理(converse separating hyperplane theorems):对于任意两个凸集 和 ,其中至少一个集合为开集,则当且仅当集合 和 间存在一个分割超平面时,集合 和 是不相交(disjoint)的。
4. 支持超平面
支持超平面(supporting hyperplane)是指,对于凸集 而言, 为集合 边界上的一点( ),如果 ,那么超平面 被称为集合 在点 处的超平面。支持超平面也可以理解为分割点 和 的超平面,支持超平面的几何意义表示集合 上点 的切线。支持超平面的实例如下图所示。
基于超平面分割理论我们可以得出支持超平面理论(supporting hyperplane theorem):对于任意非空凸集 和任意集合 上的一点 ,必然在点 上存在一个支持超平面。同理,我们可以获得支持超平面理论的逆定理,如果集合是闭合的且含有非空内点,当在集合边界的每一点上都存在支持超平面时,该集合为凸集。
5. 总结
在获得多维空间上极值的定义,以及分割超平面和支持超平面定理,我们可以更加明确什么是支持向量,什么是分类边界,以及为什么支持向量机算法会完成分类的任务,当然,谈到支持向量机,其中还用到了对偶的思想,关于对偶锥(dual cone)比较抽象,我个人理解的不是很好,所以暂时先不写这部分的内容,感兴趣的童鞋自行阅读《convex optimization》一书的2.6节内容。