SVM 原理推导

最新推荐文章于 2023-12-19 20:28:36 发布

limn2o4

最新推荐文章于 2023-12-19 20:28:36 发布

阅读量339

点赞数

分类专栏： machine learning

本文链接：https://blog.csdn.net/lingzidong/article/details/104397758

版权

本文详细介绍了SVM（支持向量机）的基本原理，包括其作为分类器的目标是找到最大化间隔的超平面，以及通过拉格朗日乘子法和KKT条件求解问题。此外，还探讨了软间隔SVM的概念，允许一定的误差以提高模型的泛化能力。最后，文章强调理解SVM的理论基础对于避免过拟合和构建高质量模型的重要性。

摘要由CSDN通过智能技术生成

介绍

这篇博文写一些SVM的东西，首先的先对SVM原理做一个概述，之后对整个证明过程做一个梳理

SVM 原理

SVM旨在解决一系列分类问题。我们从几何意义来考虑分类问题的话，首先每一类都是多维空间的一个点，分类器就是在这个空间中中找到一个可以将每一类数据点分割开的超平面。比如果最简单的使用线性回归一类算法去寻找分类面，SVM同样是寻找分类面。在点数一定的情况下，分类面不只是有一个面，有很多个面的存在，所以我们在寻找这些面的时候，需要找一个泛化能力最好的面，那么这个时候，我们就需要考虑每个点到分类面的间隔。最好的分类面，代表间隔最大，也就是离分类面的最近的点的距离，是其他分类面中最大的。
为什么呢？我可以思考一个过拟合的问题，数据中存在的error或者说noise是普遍存在的，我们如果去拟合这些点，就会发生过拟合的问题，为了减量避免这种情况造成的影响，我们需要找一个最不可能拟合噪声的平面，这样的在测试集，验证集上的表现不至于太差。
那么原理不太难，接下来就需要用数学定义表达式，并且一步步推导求解的过程

SVM推导概述

SVM推导的过程比较复杂，原因是SVM对目标函数做的一步步简化十分精妙，虽然使得整个过程难以理解，但是一旦理解其中蕴含，一定对SVM有更深入理解
整个过程大致分为三个部分：间隔（基本定义），对偶（进一步优化），核方法（优化求解空间），整个优化的过程还涉及到拉格朗日乘子法，函数的对偶，KKT条件等知识，SVM作为一个抛砖引玉的作用，让我们对优化方法能有更多的见解。

我们先考虑再二维空间点的分类，我们先来尝试看SVM的数学定义
$\max_{w,b} margin(w,b)\\s.t. \forall i=1 \to N \\y_i(w^tx_i+b) > 0$
条件很好理解，就是我希望每个点都是正确的，间隔我们利用数学语言描述如下：
$\to \min_{x_i}{1 \over ||w||}|w^Tx_i+b|$
其中 $\over ||w||}|w^Tx_i+b|$ 代表点 $x_i$ 到分界面的距离
那么SVM最基本的式子可以写成：
$\max_{w,b} \ \min_{x_i} \ {1 \over ||w||}|w^Tx_i+b| \\ \mathrm{ s.t. } \ y_i(W^Tx_i+b) > 0\tag{1.1}$
接着这个式子进行推导，首先观察条件 $y_i(w^Tx_i+b) > 0$ ，可以发现推论1
$\exist \gamma > 0 \ \min_{w,b,x_i,i=1...N} y_i(w^T+b)=\gamma$