支持向量机入门_csdn 支持向量机-CSDN博客

本文链接：https://blog.csdn.net/2201_75369574/article/details/130313967

支持向量机（Support Vector Machine，简称SVM）是一种经典的监督学习算法，它可以用于分类和回归问题。SVM的特点是具有较高的泛化能力，可以有效地处理高维数据和非线性问题。本文将介绍SVM的基本原理、核函数和模型选择等内容，帮助读者快速了解SVM的入门知识。

一、SVM的基本原理

SVM是一种二分类模型，其基本原理可以用以下图示表示：

![SVM原理图](https://img-blog.csdn.net/20180328112015660?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY2FuZGVlcF9fXw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/q/50)

如图所示，假设我们要将二维平面上的数据点分为两类：红色圆点和蓝色三角形。我们可以用一条直线来将它们分开，但是有多条直线都可以将它们分开，我们该如何选择最好的分割线呢？

SVM的基本思想是找到一个最优的分割线，使得其到两类数据点的距离最大。其中，到分割线最近的数据点叫做支持向量（Support Vector），如图中的三个点。这条分割线称为最大间隔分割线，因为它能够最大化两类数据点之间的距离。

如何计算最大间隔分割线呢？我们可以将分割线表示为$w*x+b=0$的形式，其中w是向量，x是数据点，b是截距。我们的目标是最大化$\frac{2}{||w||}$，即最小化$||w||$。同时，我们还需要满足以下约束条件：

- 对于分类标签为+1的数据点，应满足$w*x+b\geqslant1$

- 对于分类标签为-1的数据点，应满足$w*x+b\leqslant-1$

以上约束条件可以简化为$y_i(w*x_i+b)\geqslant1$，其中$y_i$是数据点的分类标签。

为了方便计算，我们可以将目标函数改写为以下形式：

$$\begin{aligned} &\min_{w,b}\frac{1}{2}||w||^2\\ &s.t. \ y_i(w*x_i+b)\geqslant1 \end{aligned}$$

这是一个凸优化问题，可以用拉格朗日乘子法求解。具体而言，我们可以定义拉格朗日函数：

$$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^{N}\alpha_i[y_i(w*x_i+b)-1]$$

其中，$\alpha_i\geqslant0$是拉格朗日乘子。我们需要求解以下方程组：

$$\begin{aligned} &\frac{\partial L}{\partial w}=w-\sum_{i=1}^{N}\alpha_iy_ix_i=0\\ &\frac{\partial L}{\partial b}=-\sum_{i=1}^{N}\alpha_iy_i=0\\ &y_i(w*x_i+b)-1\geqslant0\\ &\alpha_i[y_i(w*x_i+b)-1]=0 \end{aligned}$$

解得$\alpha_i$的值后，就可以计算出w和b的值了。最终的分类决策函数为：

$$f(x)=sign(\sum_{i=1}^{N}\alpha_iy_i(x_i*x)+b)$$

二、SVM的核函数

SVM的基本原理是将数据映射到高维空间，从而使数据线性可分。但是，将低维数据映射到高维空间可能会导致维度灾难问题（Curse of Dimensionality），即计算复杂度随着维度增加而增加。为了解决这个问题，我们可以使用核函数（Kernel Function）。

核函数是一种将低维数据映射到高维空间的技术，它可以在低维空间中计算高维空间中的内积，从而避免了显式地计算高维空间中的数据。常用的核函数有以下几种：

1. 线性核函数

线性核函数的公式为：

$$K(x_i,x_j)=x_i*x_j$$

这个核函数表示在原始空间中的内积，即将数据点映射到同一维度空间中。它适用于大部分线性问题，但是对于非线性问题效果较差。

2. 多项式核函数

多项式核函数的公式为：

$$K(x_i,x_j)=(x_i*x_j+1)^p$$