6支持向量机
现在有一堆样本,我们想对其分类,怎么分才是最好的呢?我们设想,有个完美的超平面,从中将这些样本正好分成了两类。怎么个完美法?这个超平面使得样本的动荡最小,并且分类的结果鲁棒性能好,这就是划分最好的超平面。既然是一个超平面,那肯定有法向量和位移。空间中有一部分点到超平面距离是法向量模的正反倍数的话,这些点就是支持向量。两个类别支持向量之间的距离叫间隔。想要间隔最大化,也就是需要模最小化。这个时候,这个优化模型叫作支持向量机的基本型。求解该模型,可以用对偶问题。但是当我们想找一个超平面干掉分类问题,现实中这样的超平面不一定会存在。因此,我们需要往高维去拓展。拓展的时候,遇到了高维障碍,直接求不好求。人们借助了一个函数来求解。这个函数也被称作了核函数,核函数的展开式也叫支持向量展式。所以我们发现,这个关键是就是怎么去定义这个核函数?这也是支持向量机的最大变数。即便找到了一个核函数使训练样本在特征空间中线性可分,但是我们也不知道这个会不会过拟合。以前划分间隔的都是必须得满足一定的要求,也称作硬间隔,现在如果运行某些样本不满足这样的样本,则可称作软间隔。然而,这样不满足约束的样本应该经可能的少,怎么衡量呢?引入了损失函数。now,我们又该认识损失函数了?这怎么定义?有什么性质?接着,我们引入了损失函数后,我们得定量的判断到底损失了多少呀,这需要预测,因此涉及到了回归。