往往机器学习算法都是解决一类问题而提出的,我们可以看到下面这张图片,要将红色的点与黄色的点分开,那条线才是最好的呢?
我们可以看到上图中的三条线全都将数据点完全分开了,但哪一条线最好呢,我们再来看下面这张图
在给线条加上灰色边界之后,明显可以看出第二条线的边界范围最大(从上向下数),边界范围大对应着模型的泛化性能就越好。你可以将图中的点类比为雷区,当你穿行在其中,灰色边界越大说明你就越安全。而决策边界(即灰色区域的边缘)的大小由哪个“雷”对我而言是最近的。这就将此物理问题转换为了数学问题。
将问题提升一下,在三维平面中,x是离我最近的一颗“雷”,而灰色的平面对应着我们的那条分隔线。刚刚说到我们需要求最近的点到我们这个面的距离,那么过x做平面的垂线(法线),垂线的距离就是需要求的距离了。假设有两个点X’和X’’在平面上。则满足该平面的表达式,表示为:
(WT和 x 都是 n 维列向量,x 为平面上的点,w 为平面上的法向量,决定了超平面的方向,