数值计算和SVM讲解（下）

最新推荐文章于 2023-03-20 12:20:55 发布

置顶

gcaxuxi

最新推荐文章于 2023-03-20 12:20:55 发布

阅读量7k

点赞数 2

文章标签： svm 数值优化

本文链接：https://blog.csdn.net/gcaxuxi/article/details/77776505

版权

本文详细介绍了SVM的基础概念，包括原始SVM、软阈值（松弛变量）、核函数以及SMO算法。重点阐述了SVM的优化过程，从最大化几何间隔到引入松弛变量处理噪声，再到利用核函数解决非线性问题。SMO算法作为快速求解支持向量机的实用方法，适用于大规模训练样本。

摘要由CSDN通过智能技术生成

2.2.1 Original SVM

终于把所有的铺垫介绍完毕，本节开始我们正式进入SVM。

首先我们简单介绍一下朴素SVM，这个“朴素”一词是本人自己加上的。其意旨脱去加上核函数和SMO算法等等其他知识，展现最为“原始”的SVM思想。

根据2.1.2一节，我们知道SVM的基本架构（代价函数等等）与logistic回归统一，区别在于它的焦点在于支持向量这些点上。那么直观而言，我们希望最优超平面能与这些支持向量的距离（指几何距离）最小。

这里便引出了两个知识点：函数间隔（Functional margin）与几何间隔（Geometrical margin）。函数间隔我们在2.1.3感知机一节中已经介绍（构建感知机代价函数中，由此可见感知机其实也是SVM的基础之一），其值为yi(wTxi+b)。

在SVM中我认为几何间隔是构建优化模型最直观的感受，函数间隔只是在几何间隔的基础上人为设定的一种定义值，其作用只是辅助前者。所以本文我们着重介绍一下几何间隔。几何间隔，顾名思义相关点到超平面的几何距离。对于一般点到平面的距离，有公式： d=|wTx+b|/ ||w||，其中分子为绝对值，分母为w的L2范数，也即向量w的模。

设支持向量的样本点为(x*,y*)，γ作为支持向量到超平面的几何间隔14：

对于二者我们有以下的性质：
1.当函数间隔小于0，表示的是误分类的噪声，在感知机一节中我们提到用其来作为误分类样本点的个数，并成为代价函数；在SVM中我们用其作为支持向量样本点与超平面的几何间隔的分子部分；
2. 同倍数扩大或缩小w、b，超平面是不变的，函数距离会同等增减；而几何距离不变，因为点到固定平面的距离是不变的；
3.几何间隔=函数间隔/||w||

接着我们初步定义模型为15（最大化几何间隔）：