支持向量回归(Support Vector Regression)

最新推荐文章于 2024-08-19 14:45:48 发布

Jeff-Chow000

最新推荐文章于 2024-08-19 14:45:48 发布

阅读量4.4w

点赞数 123

文章标签：机器学习 1024程序员节

本文链接：https://blog.csdn.net/u014611178/article/details/109167146

版权

支持向量回归(SVR)是支持向量机在回归任务中的应用，通过间隔最大化实现。文章介绍了带松弛变量的SVR，包括其目标函数、优化过程和ε不敏感损失的概念，展示了SVR如何处理异常点并保持模型的鲁棒性。此外，还探讨了SVR与ε不敏感损失+L2正则的关系，帮助理解SVR的优化目标和工作原理。

摘要由CSDN通过智能技术生成

支持向量回归(Support Vector Regression)

支持向量机除了能够分类，还可以用于回归。

回归的目的是得到一个能够尽量拟合训练集样本的模型 $f(\mathbf{x})$ ，通常用的方法是构建一个样本标签与模型预测值的损失函数，使损失函数最小化从而确定模型 $f(\mathbf{x})$ 。

在这里插入图片描述

例如，在线性回归模型中，损失函数(L2损失，L1损失，huber损失)由模型输出 $f(\mathbf{x})$ 与真实输出 $y$ 之间的差别来计算，通过最小化损失函数来确定模型 $f(\mathbf{x})$ ，当且仅当 $f(\mathbf{x})$ 与 $y$ 完全相等时，损失才为0。

那支持向量机是如何用于回归的呢？

支持向量机的精髓在于间隔最大化。

在分类任务中，使靠超平面最近的样本点之间的间隔最大；

在这里插入图片描述

而在回归任务中，同样也是间隔最大，不同的是它使靠超平面最远的样本点之间的间隔最大。

在这里插入图片描述
如果使靠超平面最远的样本点之间的间隔最大，那么上图样本点的回归超平面结果就应该变成下左图那样。

在这里插入图片描述
显然，我们希望回归能达到右图的效果，于是SVR对间隔加了限制，对所有的样本点，回归模型 $f(\mathbf{x})$ 与 $y$ 的偏差必须 $\le \varepsilon$ 。我们把这个偏差范围称作 $\varepsilon$ 管道。

在这里插入图片描述
依据以上的思路，SVR的优化问题可以用数学式表示为
$\begin{aligned} &\min_{\mathbf{w},b} \frac{1}{2} ||\mathbf{w}||_2^2 \\ s.t. \quad |y_i - (\mathbf{w}^T &\mathbf{x}_i + b)| \le \varepsilon, \quad i = 1,2,\cdots,N \end{aligned}$
SVR的目的是：保证所有样本点在 $\varepsilon$ 管道内的前提下，回归超平面 $f(\mathbf{x})$ 尽可能地平。

在这里插入图片描述
在 $\varepsilon$ 不变的前提下，回归超平面 $f(\mathbf{x})$ 尽可能平和间隔尽可能大是等效的。

带松弛变量的SVR

实际应用中， $\varepsilon$ 设置太小无法保证所有样本点都在 $\varepsilon$ 管道内， $\varepsilon$ 太大回归超平面会被一些异常点带偏。

在这里插入图片描述
和软间隔SVM模型类似，SVR允许每个样本 $(\mathbf{x}_i,y_i)$ 添加松弛变量 $\xi_i \ge 0$ ，用来描述样本点偏离 $\varepsilon$ 管道的程度。

如何添加松弛变量？

如果直接在约束条件中加上松弛变量，变成 $|y_i - (\mathbf{w}^T \mathbf{x}_i + b)| \le \varepsilon + \xi_i$ ，即
$\left\{ \begin{aligned} y_i - (\mathbf{w}^T \mathbf{x}_i + b) &\le \varepsilon + \xi_i \quad 上界约束 \\ (\mathbf{w}^T \mathbf{x}_i + b) - y_i &\le \varepsilon + \xi_i \quad 下界约束 \end{aligned} \right.$
在这里插入图片描述
显然，超出间隔上界的样本点影响到了下界面的约束。

那么是否可以对超出不同界面的样本点分开添加松弛变量？

比如：样本点超出间隔上界，我们令
$\left\{ \begin{aligned} y_i - (\mathbf{w}^T \mathbf{x}_i + b) &\le \varepsilon + \xi_i \quad 上界约束 \\ (\mathbf{w}^T \mathbf{x}_i + b) - y_i &\le \varepsilon \quad 下界约束 \end{aligned} \right.$
超出间隔下界，令
$\left\{ \begin{aligned} y_i - (\mathbf{w}^T \mathbf{x}_i + b) &\le \varepsilon \quad 上界约束 \\ (\mathbf{w}^T \mathbf{x}_i + b) - y_i &\le \varepsilon + \xi_i \quad 下界约束 \end{aligned} \right.$
但是事先不知道样本点超出的是上界还是下界，因此也不可行，而且超出上界和超出下界的约束条件形式还不相同。

其实，上下界的松弛变量可以用不同符号来表示： $\xi_i^{\bigwedge} \ge 0,\xi_i^{\bigvee} \ge 0$ ，约束条件变成
$\left\{ \begin{aligned} y_i - (\mathbf{w}^T \mathbf{x}_i + b) &\le \varepsilon + \xi_i^{\bigwedge} \quad 上界约束 \\ (\mathbf{w}^T \mathbf{x}_i + b) - y_i &\le \varepsilon + \xi_i^{\bigvee} \quad 下界约束 \end{aligned} \right.$
当 $\xi_i^{\bigwedge} \ne 0,\xi_i^{\bigvee} = 0$ 时，样本点超出上界；

当 $\xi_i^{\bigwedge} = 0,\xi_i^{\bigvee} \ne 0$ 时，样本点超出下界；

当 $\xi_i^{\bigwedge} = 0,\xi_i^{\bigvee} = 0$ 时，样本点在 $\varepsilon$ 通道内。

$\xi_i^{\bigwedge} \ne 0, \xi_i^{\bigvee} \ne 0$ 这种情况不可能出现，因为这表示样本点既超出上界又超出下界，明显不可能发生。

引入松弛变量，SVR的优化问题形式为
$\begin{aligned} &\min_{\mathbf{w},b} \frac{1}{2} ||\mathbf{w}||_2^2 + C \sum_{i=1}^N (\xi_i^{\bigvee} + \xi_i^{\bigwedge}) \\ s.t. \quad - \varepsilon - \xi_i^{\bigvee}& \le y_i - (\mathbf{w}^T \mathbf{x}_i + b) \le \varepsilon + \xi_i^{\bigwedge}, \quad i = 1,2,\cdots,N \\ &\xi_i^{\bigvee} \ge 0, \xi_i^{\bigwedge} \ge 0, \quad i = 1,2,\cdots,N \end{aligned}$

带松弛变量的SVR目标函数的优化

依然与SVM分类模型类似，先用拉格朗日乘子法，将目标函数变成：
$\begin{aligned} &L(\mathbf{w},b,\boldsymbol{\alpha}^{\bigvee},\boldsymbol{\alpha}^{\bigwedge},\boldsymbol{\xi}^{\bigvee},\boldsymbol{\xi}^{\bigwedge},\boldsymbol{\mu}^{\bigvee},\boldsymbol{\mu}^{\bigwedge}) \\ = &\frac{1}{2} ||\mathbf{w}||_2^2 + C \sum_{i=1}^N (\xi_i^{\bigvee} + \xi_i^{\bigwedge}) + \sum_{i=1}^N \alpha_i^{\bigvee} [- \varepsilon - \xi_i^{\bigvee} - y_i + (\mathbf{w}^T \mathbf{x}_i + b)] \\ &+ \sum_{i=1}^N \alpha_i^{\bigwedge} [y_i - (\mathbf{w}^T \mathbf{x}_i + b) - \varepsilon - \xi_i^{\bigwedge}] - \sum_{i=1}^N \mu_i^{\bigvee} \xi_i^{\bigvee} - \sum_{i=1}^N \mu_i^{\bigwedge} \xi_i^{\bigwedge} \end{aligned}$

其中， $\alpha_i^{\bigvee} \ge 0, \alpha_i^{\bigwedge} \ge 0, \mu_i^{\bigvee} \ge 0, \mu_i^{\bigwedge} \ge 0$ 都是拉格朗日系数。

那么优化问题变为
$\begin{aligned} \min_{\mathbf{w}, b, \boldsymbol{\xi}^{\bigvee}, \boldsymbol{\xi}^{\bigwedge}} \, \max_{\boldsymbol{\alpha}^{\bigvee}, \boldsymbol{\alpha}^{\bigwedge}, \boldsymbol{\mu}^{\bigvee}, \boldsymbol{\mu}^{\bigwedge}} \, L(&\mathbf{w},b,\boldsymbol{\alpha}^{\bigvee},\boldsymbol{\alpha}^{\bigwedge},\boldsymbol{\xi}^{\bigvee},\boldsymbol{\xi}^{\bigwedge},\boldsymbol{\mu}^{\bigvee},\boldsymbol{\mu}^{\bigwedge}) \\ s.t. \quad \xi_i^{\bigvee} \ge 0,& \quad i = 1,2,\cdots,N \\ \xi_i^{\bigwedge} \ge 0,& \quad i = 1,2,\cdots,N \\ \quad \alpha_i^{\bigvee} \ge 0,& \quad i=1,2,\cdots,N \\ \alpha_i^{\bigwedge} \ge 0,& \quad i=1,2,\cdots,N \\ \mu_i^{\bigvee} \ge 0,& \quad i=1,2,\cdots,N \\ \mu_i^{\bigwedge} \ge 0,& \quad i=1,2,\cdots,N \end{aligned}$
优化问题满足KKT条件，可以等价为对偶问题
$\begin{aligned} \max_{\boldsymbol{\alpha}^{\bigvee}, \boldsymbol{\alpha}^{\bigwedge}, \boldsymbol{\mu}^{\bigvee}, \boldsymbol{\mu}^{\bigwedge}} \, \min_{\mathbf{w}, b, \boldsymbol{\xi}^{\bigvee}, \boldsymbol{\xi}^{\bigwedge}} \, L(&\mathbf{w},b,\boldsymbol{\alpha}^{\bigvee},\boldsymbol{\alpha}^{\bigwedge},\boldsymbol{\xi}^{\bigvee},\boldsymbol{\xi}^{\bigwedge},\boldsymbol{\mu}^{\bigvee},\boldsymbol{\mu}^{\bigwedge}) \\ s.t. \quad \xi_i^{\bigvee} \ge 0,& \quad i = 1,2,\cdots,N \\ \xi_i^{\bigwedge} \ge 0,& \quad i = 1,2,\cdots,N \\ \quad \alpha_i^{\bigvee} \ge 0,& \quad i=1,2,\cdots,N \\ \alpha_i^{\bigwedge} \ge 0,& \quad i=1,2,\cdots,N \\ \mu_i^{\bigvee} \ge 0,& \quad i=1,2,\cdots,N \\ \mu_i^{\bigwedge} \ge 0,& \quad i=1,2,\cdots,N \end{aligned}$