支持向量机（SVM）原理小结（3）支持向量回归SVR

最新推荐文章于 2024-08-03 18:21:56 发布

咕叽咕叽小菜鸟

最新推荐文章于 2024-08-03 18:21:56 发布

阅读量1w

点赞数 10

分类专栏： MachineLearning 文章标签：支持向量机支持向量回归对偶形式核函数约束优化

本文链接：https://blog.csdn.net/u010366748/article/details/113066051

版权

MachineLearning 专栏收录该内容

24 篇文章 12 订阅

订阅专栏

支持向量机（SVM）原理小结（3）支持向量回归SVR

1. 支持向量回归（SVR）
2. 模型评价
完整代码地址
参考

SVM系列文章：

支持向量机（SVM）原理小结（1）线性支持向量机
 支持向量机（SVM）原理小结（2）非线性支持向量机
 支持向量机（SVM）原理小结（3）支持向量回归SVR

本博客中使用到的完整代码请移步至: 我的github：https://github.com/qingyujean/Magic-NLPer，求赞求星求鼓励~~~

1. 支持向量回归（SVR）

传统回归问题例如线性回归中，一般使用模型 $f(x)=w\cdot x+b$ 的输出与真实值 $y$ 的差别来计算损失，如均方损失MSE，当 $f (x)$ 与 $y$ 完全一样时损失才为0。

而SVR假设能容忍$f(x)$和$y$之间最多由 $\epsilon$ 的偏差，即 $|f(x)-y|>\epsilon$ 时才计算损失。这相当于以 $f(x)=w\cdot x+b$ 为中心，构建了一个宽度为 $2\epsilon$ 的间隔带（见下图），如果训练样本落在间隔带内部，则认为预测正确，无损失。

SVR间隔带

则SVR问题可形式化为：

$\begin{array}{cl}\max\limits_{w,b}&\frac{1}{2}\|w\|^2\\\text{s.t.}&|\left(w\cdot x_i+b\right)-y_i|\le \epsilon,\quad i=1,2,\cdots,N\end{array}$

对每个样本点 $x_i,y_i)$ 引入一个松弛变量 $\xi_i\ge0$ ，使得约束变为： $|w\cdot x +b-y_i|\le\epsilon+\xi_i$ ，同时对每个松弛变量支付一个代价 $\xi_i$ （这里的代价 $\xi_i$ ，其实就是不满足约束的程度：满足约束的即在间隔带内部的，代价为0；勉强满足约束的即点落在间隔带外边附近的，代价比较小，完全背离约束的即落在间隔带外边而且隔的很远，代价最大）。此时就得到如下的约束最优化的原始问题：

$\begin{array}{ll}\min\limits_{w, b, \xi} & \frac{1}{2}\|w\|^{2}+C \sum\limits_{i=1}^{N} \xi_{i} \\\text { s.t. } & |\left(w\cdot x_i+b\right)-y_i|\le \epsilon+\xi_i \\& \xi_{i} \geqslant 0, \quad i=1,2, \cdots, N\end{array}$

软间隔SVR 间隔带

若允许间隔带两侧的松弛程度不同，即进入2个松弛变量 $\xi_i\ge0,\hat\xi_i\ge0$ ，那么就得到如下的约束最优化的原始问题：

$\begin{array}{ll}\min\limits_{w, b, \xi,\hat\xi_i} & \frac{1}{2}\|w\|^{2}+C \sum\limits_{i=1}^{N} (\xi_{i} +\hat\xi_{i}) \\\text { s.t. } & \left(w \cdot x_{i}+b\right) -y_i\leqslant \epsilon+\xi_{i} \\& y_i-\left(w \cdot x_{i}+b\right) \leqslant \epsilon+\hat\xi_{i} \\& \xi_{i} \geqslant 0, \hat\xi_{i} \geqslant 0,\quad i=1,2, \cdots, N\end{array}$

1.1 学习算法—对偶形式

首先写出有约束最优化的原始问题的拉格朗日无约束优化函数：

$\xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu) \equiv \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} (\xi_{i}+\hat\xi_i)+\sum_{i=1}^{N} \alpha_{i}\left(w \cdot x_{i}+b-y_i-\epsilon-\xi_{i}\right)+\sum_{i=1}^{N} \hat\alpha_{i}\left(y_i-(w \cdot x_{i}+b)-\epsilon-\hat\xi_{i}\right)-\sum_{i=1}^{N} \mu_{i} \xi_{i}-\sum_{i=1}^{N} \hat\mu_{i} \hat\xi_{i}$

其中 $\alpha_i\ge0,\hat\alpha_i\ge0,\mu_i\ge0,\hat\mu_i\ge0,i=1,...,N$ ，称为拉格朗日乘子。

约束最优化的原始问题可以表示为 拉格朗日极小极大问题： $\min\limits_{w,b,\xi,\hat\xi}\max\limits_{\alpha,\hat\alpha,\mu,\hat\mu} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)$ 。

由于 $\xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)$ 和约束条件函数为连续可微的凸函数，且满足KKT条件，则原始问题的解与对偶问题的解是等价的，那么可以通过求解对偶问题来求解原始问题。

原始问题的对偶问题是 拉格朗日极大极小问题： $\max\limits_{\alpha,\hat\alpha,\mu,\hat\mu}\min\limits_{w,b,\xi,\hat\xi} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)$

（1）求 $\min\limits_{w,b,\xi,\hat\xi} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)$

将 $\xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)$ 分别对 $w$ , $b$ 和 $\xi,\hat\xi$ 求偏导数，并令其等于0。

$\nabla_{w} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=w+\sum_{i=1}^{N} (\alpha_{i}-\hat\alpha_i) x_{i}=0 \\\nabla_{b} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=\sum_{i=1}^{N} (\alpha_{i}- \hat\alpha_{i})=0 \\\nabla_{\xi_i} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=C-\alpha_i-\mu_i=0 \\\nabla_{\hat\xi_i} L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=C-\hat\alpha_i-\hat\mu_i=0$

得

$w=\sum_{i=1}^{N}(\hat\alpha_i-\alpha_i)x_i\\\sum_{i=1}^{N} (\hat\alpha_{i}- \alpha_{i})=0 \\C-\alpha_i-\mu_i=0 \\C-\hat\alpha_i-\hat\mu_i=0$

代入得

$\begin{aligned}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu) =&-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} (\hat\alpha_{i}-\alpha_i) (\hat\alpha_{j}-\alpha_j) \left(x_{i} \cdot x_{j}\right)\\&+\sum_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)-\epsilon(\hat\alpha_i+\alpha_i)\end{aligned}$

即

$\begin{aligned}\min_{w,b,\xi,\hat\xi}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)=&-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} (\hat\alpha_{i}-\alpha_i) (\hat\alpha_{j}-\alpha_j) \left(x_{i} \cdot x_{j}\right)\\&+\sum_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)-\epsilon(\hat\alpha_i+\alpha_i)\end{aligned}$

（2）求 $\min\limits_{w,b,\xi,\hat\xi}L(w, b, \xi, \hat\xi, \alpha, \hat\alpha, \mu, \hat\mu)$ 对 $\alpha,\hat\alpha$ 的极大，即对偶问题

$\begin{array}{ll}\max\limits_{\alpha,\hat\alpha} & -\frac{1}{2} \sum\limits_{i=1}^{N} \sum\limits_{j=1}^{N} (\hat\alpha_{i}-\alpha_i) (\hat\alpha_{j}-\alpha_j) \left(x_{i} \cdot x_{j}\right) \\&+\sum\limits_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)-\epsilon(\hat\alpha_i+\alpha_i)\\\text { s.t. } & \sum\limits_{i=1}^{N} (\hat\alpha_{i}- \alpha_{i})=0 \\& C-\alpha_i-\mu_i=0 \\&C-\hat\alpha_i-\hat\mu_i=0\\& \alpha_{i} \geqslant 0,\hat\alpha_{i} \geqslant 0\\& \mu_i \geqslant 0,\hat\mu_i \geqslant 0 , \quad i=1,2, \cdots, N\end{array}$

等价于（利用等式 $C-\alpha_i-\mu_i=0$ 和 $C-\hat\alpha_i-\hat\mu_i=0$ 消去 $\mu_i$ 和 $\hat\mu_i$ ，并将求max转化为求min）：

$\begin{array}{ll}\min\limits_{\alpha,\hat\alpha_i} & \frac{1}{2} \sum\limits_{i=1}^{N} \sum\limits_{j=1}^{N} (\hat\alpha_i-\alpha_{i}) (\hat\alpha_j-\alpha_{j})\left(x_{i} \cdot x_{j}\right)\\&-\sum\limits_{i=1}^{N} y_i(\hat\alpha_{i}-\alpha_i)+\epsilon(\hat\alpha_i+\alpha_i) \\\text { s.t. } & \sum\limits_{i=1}^{N} (\hat\alpha_{i}- \alpha_{i})=0 \\& 0 \leqslant\alpha_{i} \leqslant C\\& 0 \leqslant\hat\alpha_{i} \leqslant C, \quad i=1,2, \cdots, N\end{array}$

上式即为 对偶最优化问题。

对偶最优化问题对 $\alpha,\hat\alpha$ 的解设为 $\alpha^*,\hat\alpha^*$ ，那么原始问题最优化问题的解 $w^*,b^*$ 也可求出。

即求得

$w^*=\sum_{i=1}^{N}(\hat\alpha_i^*-\alpha_i^*)x_i$

任选一个 $\alpha^*$ 的分量 $\alpha_j^*$ 满足 $<\alpha_{j}^* < C$ 用来求 $b^*$ （因为 $\mu_i=C-\alpha_i>0$ ，而 $\mu_i\xi_i=0$ ，所以 $\xi_i=0$ ）：

$b^*=y_j+\epsilon-\sum_{i=1}^{N}(\hat\alpha_i^*-\alpha_i^*)(x_i\cdot x_j)$

则最后的SVR模型可表示为：

$\sum_{i=1}^{N}\alpha_i^*y_i(x\cdot x_i)+b^*=0$

分类决策函数可以写成

$f(x)=\sum_{i=1}^{N}(\hat\alpha_i^*-\alpha_i^*)(x_i\cdot x)+b^*$

对偶算法中， $f (x)$ 只依赖于输入 $x$ 和训练样本 $x_i$ 的内积，而上式称为 线性支持向量回归的对偶形式。

1.2 核函数

考虑非线性映射 $\phi(x)$ 和核函数 $K (x, z)$ ，则容易得到非线性支持向量回归的对偶形式：

$f(x)=\sum_{i=1}^{N}(\hat\alpha_i^*-\alpha_i^*)K(x,x_i)+b^*$

其中 $K(x,x_i)=\phi(x)\cdot\phi(x_i)$ 为核函数。

1.3 支持向量

注意对偶问题中 $w^*$ 的求解式： $w^*=\sum\limits_{i=1}^{N}(\hat\alpha_i^*-\alpha_i^*)x_i$ ，只有 $\hat\alpha_i^*-\alpha_i^*\neq 0$ 才对求解 $w^*$ 有影响（保证了解的 稀疏性，最终模型仅与支持向量有关），所以满足 $\hat\alpha_i^*-\alpha_i^*\neq 0$ 的样本 $x_i$ 就称为 支持向量。

由KKT互补条件知， $\alpha_{i}\left(w \cdot x_{i}+b-y_i-\epsilon-\xi_{i}\right)=0$ ，当 $\alpha_i>0$ 时，则一定有 $\cdot x_{i}+b-y_i-\epsilon-\xi_{i}=0$ ，即 $\cdot x_{i}+b-y_i=\epsilon+\xi_{i}$ ，同理，如要 $\hat\alpha_i>0$ ，则一定有 $y_i-(w \cdot x_{i}+b)-\epsilon-\xi_{i}=0$ ，即 $y_i-(w \cdot x_{i}+b)=\epsilon+\xi_{i}$ 。换言之，如若要 $\alpha_i$ 和 $\hat\alpha_i$ 不为0，当且仅当即实例 $x_i$ 一定 不在 $\epsilon-$ 间隔带内部。

此外，因为实例点一定在 $\epsilon-$ 间隔带的某一侧，所以 $\cdot x_{i}+b-y_i-\epsilon-\xi_{i}=0$ 和 $y_i-(w \cdot x_{i}+b)-\epsilon-\xi_{i}=0$ 不可能同时成立，所以 $\alpha_i和\hat\alpha_i$ 中至少必有一个为0。