机器学习笔记-Support Vector Regression(SVR)

最新推荐文章于 2024-07-18 08:49:40 发布

土肥宅娘口三三

最新推荐文章于 2024-07-18 08:49:40 发布

阅读量1.1w

点赞数 1

分类专栏：机器学习文章标签：机器学习支持向量机回归 SVR kernel模型机器学习系列

本文链接：https://blog.csdn.net/robin_xu_shuai/article/details/77584906

版权

机器学习专栏收录该内容

31 篇文章 9 订阅

订阅专栏

Support Vector Regression（SVR）

上一篇中的内容是 $KLR（kernel\ logistic\ regression）$ 。这个问题的出发点是我们想要把 $SVM$ 这个强大的工具用在 $soft\ binary\ classification$ 上，我们有两种选择：第一种方法可以称之为 $two\ level\ learning$ ：第一阶段做 $SVM$ ；第二阶段将 $SVM$ 的结果使用 $logistic\ regression$ 进行微调。第二种方法是使用 $representer\ theorem$ 理论直接将 $logistic\ regression$ 转换为一个 $kernel$ 的形式。这篇将简单讲述如何将一般的 $regression$ 变为 $kernel$ 的形式。

Kernel Ridge Regression

回顾Representer Theorem

如果求解的问题是带有 $regularized$ （ $L2$ - $regularization$ ）的 $linear\ model$ ，那么最佳的 $w$ 将是 $z$ 的线性组合。即任何的 $L2$ - $regularized$ 的 $linear\ model$ 都可以变为 $kernel$ 的形式。那么如何利用这个理论基础把之前学习过的 $regression$ 变为 $kernel$ 的形式将是我们这节的重点。

线性回归

在线性回归中我们使用平方误差来衡量真实值和预测值之间的 $error($ 称为 $square\ error)$ ，然后通过最小化这个 $error$ 来得到最佳的解。

e r r (y, w T z) = (y - w T z) 2

$err(y, w^Tz) = (y - w^Tz)^2$
如果在线性回归的基础上加上

regularization $regularization$ 的话得到的模型我们称之为

ridge regression $ridge\ regression$ ，即有

regularization $regularization$ 的

linearregression $linear regression$ 的形式。这节将讲述的是，怎么把

ridge regression $ridge\ regression$ 加上

kernel $kernel$ 得到我们想要的

kernel ridge regression $kernel\ ridge\ regression$ 。

在 $linear\ regression$ 或者是 $ridge\ regression$ 中，我们可以得到问题的 $analytic\ solution$ 。即解析解。同样我们希望 $kernel\ ridge\ regression$ 也可以有 $analytic\ solution$ 。

Kernel Ridge Regression问题

$ridge\ regression$ 问题可以由如下的 $(1)$ 式描述：

m i n w 最 佳 解 满 足 ： λ N w T w + 1 N \sum n = 1 N (y n - w T z n) 2 w * = \sum n = 1 N β n z n (1)

$\begin{align} \mathop{min}\limits_{w}\quad &\frac{\lambda}{N}w^Tw+\frac1N\sum_{n=1}^{N}(y_n - w^Tz_n)^2 \tag1\\ 最佳解满足：\quad & w_* = \sum_{n=1}^{N}\beta_nz_n \end{align}$

因为已经知道了最佳解的形式，所以我们可以将最佳解带入原始的问题当中，这样就将问题从求解 $w$ 变为求解 $\beta$ 。

m i n β λ N \sum n = 1 N \sum m = 1 N β n β m z T n z m + 1 N \sum n = 1 N (y n - \sum m = 1 N β m z T m z n) 2

$\mathop{min}\limits_{\beta}\quad \frac{\lambda}{N}\sum_{n=1}^{N}\sum_{m=1}^{N}\beta_n\beta_mz_n^Tz_m + \frac{1}{N}\sum_{n=1}^{N}\bigg(y_n - \sum_{m=1}^{N}\beta_mz_m^Tz_n\bigg)^2$
这样就可以使用核技巧得到如下的

Kernel Ridge Regression $Kernel\ Ridge\ Regression$ 问题：

m i n β λ N \sum n = 1 N \sum m = 1 N β n β m K (x n, x m)                            □ + 1 N \sum n = 1 N (y n - \sum m = 1 N β m K (x m, x n)) 2                                    ◯

$\mathop{min}\limits_{\beta}\quad \frac{\lambda}{N} \underbrace{\sum_{n=1}^{N}\sum_{m=1}^{N}\beta_n\beta_mK(x_n, x_m)}_{\square} + \frac{1}{N}\underbrace{\sum_{n=1}^{N}\bigg(y_n - \sum_{m=1}^{N}\beta_mK(x_m, x_n)\bigg)^2}_{\bigcirc}$

原来要求解的是一个关于 $w$ 的问题，现在根据 $representer\ theorem$ 转换为一个求解关于 $\beta$ 的问题，这样就隐含的将原来关于 $w$ 的问题求解了，在求解 $\beta$ 的问题时可以使用 $kernel\ trick$ 将所有 $z$ 和 $z$ 的乘积换成是 $Kernel$ 的形式。这样就得到了 $Kernel\ Ridge\ Regression$ 。
可以将 $kernel\ ridge\ regression$ 看做是 $\beta$ 的线性模型，其中 $\square$ 和 $\beta$ 的复杂度有关； $\bigcirc$ 则是 $\beta$ 的线性组合，组合的项是经过 $kernel$ 转换之后的特征。所以 $\square$ 是 $\beta$ 的一个 $regularizer$ ， $\bigcirc$ 是 $error$ 的部分。

化简为矩阵的形式：

m i n β λ N β T K β + 1 N (β T K T K β - 2 β T K T y + y T y)

$\mathop{min}\limits_{\beta}\frac{\lambda}{N}\beta^TK\beta + \frac1N (\beta^TK^TK\beta-2\beta^TK^Ty+y^Ty)$

如果我们可以求得这个问题的解，那么就可以将之前学到过的 $kernel$ （多项式核，高斯核等）用在 $ridge\ regression$ 上，

如何求解Kernel Ridge Regression

Kernel Ridge Regression

m i n β λ N β T K β + 1 N (β T K T K β - 2 β T K T y + y T y)

$\mathop{min}\limits_{\beta}\frac{\lambda}{N}\beta^TK\beta + \frac1N (\beta^TK^TK\beta-2\beta^TK^Ty+y^Ty)$
这个问题是一个无约束的最优化问题，所以先求梯度

E a u g (β) = λ N β T K β + 1 N (β T K T K β - 2 β T K T y + y T y)

$E_{aug}(\beta) = \frac{\lambda}{N}\beta^TK\beta + \frac1N (\beta^TK^TK\beta-2\beta^TK^Ty+y^Ty)$

▽ E a u g (β) = 2 λ N K β + 1 N (2 K T K β - 2 K T y) = 2 N (λ K T I β + K T K β - K T y) = 2 N K T ((λ I + K) β - y)

$\begin{align} \triangledown E_{aug}(\beta) & = \frac{2\lambda}{N}K\beta+\frac1N(2K^TK\beta-2K^Ty) \\ & = \frac{2}{N}(\lambda K^TI\beta + K^TK\beta - K^Ty) \\ & = \frac2NK^T\bigg((\lambda I + K)\beta - y\bigg) \end{align}$

我们想要求解 $\beta$ 使得梯度为0，即 $\triangledown E_{aug}(\beta) = 0$ ，所以可以使得 $(\lambda I + K)\beta - y = 0$ ，解得：

β = (λ I + K) - 1 y

$\beta = (\lambda I+K)^{-1}y$

当 $\lambda>0$ 时 $(\centerdot)^{-1}$ 总是存在的，因为 $K$ 是半正定的（根据Mercer’s condition）， $\lambda I+K$ 是正定的。

这样就可以求出最佳的 $\beta$ ，这样就得到了 $ridge\ regression$ 在 $Z$ 空间中的解。

所以理论上，我们现在可以很轻易的做 $non\ linear\ regression$ 。之前为了做 $non\ linear\ regression$ ，需要先使用非线性的转化，然后做 $linear\ regression$ ，就可以做一个 $non linear regression$ ；现在知道了另一种做 $non\ linear\ regression$ 的方法，直接通过 $kernel$ 求解在 $Z$ 空间中的最优解。

最终得到的 $kernel\ ridge\ regression$ 的模型：

g (x) = \sum n = 1 N β n K (x n, x)

$g(x) = \sum_{n=1}^{N}\beta_nK(x_n, x)$

实例结果对比

左边是 linear ridge regression 的解
- $w = (\lambda I + X^TX)^{-1}X^Ty$
右边是 kernel ridge regression 的解
- $\beta = (\lambda I + K)^{-1}y$

在 $linear\ ridge\ regression$ 中 $(\lambda I + X^TX)$ 是 $d\times d$ 的，该算法时间复杂度可以记为 $O(d^3+d^2N)$ ；在 $kernel\ ridge\ regression$ 中 $(\lambda I + K)$ 是 $N\times N$ 的。时间复杂度为 $O(N^3)$ 。

小结

所以当 $N>d$ 的时候，使用 $linear\ ridge\ regression$ 比较有效；当资料量 $N$ 很大的时候， $kernel\ ridge\ regression$ 是比较难做的，但是它有很大的自由度，可以做出复杂的曲线。所以使用线性的模型，通常关注的是模型的复杂度和效率；但是当问题很复杂的时候，通常会使用 $kernel$ 来对数据进行建模，只是缺点就是要付出计算上的复杂度。

Support Vector Regression Primal

软间隔SVM和LSSVM

$linear\ regression$ 可以用来做 $classification$ ，所以 $kernel\ ridge\ regression$ 也可以用来做 $classification$ 。用于 $classification$ 的 $kernel\ ridge\ regression$ 有一个特别的名字叫做 $least\ squares\ SVM(LSSVM)$ ， $least\ squares$ 在强调的是，它所使用的是 $error$ 是 $square\ error$ 。

对同样的资料分别利用使用 $soft\ margin\ Gaussian\ SVM$ 和 $Gaussian\ LSSVM$ 进行分类的结果如下：

从图中可以看出，分隔边界没有几乎是一致的，但是相比 $soft\ margin\ Gaussian\ SVM$ 来说， $Gaussian\ LSSVM$ 得到的支持向量 $SV$ （使用方框框起来的点）会更多一些，右图中的每一个都是 $support\ vector$ 。为什么会有这样的结果呢？ $kernel\ ridge\ regression$ 中的 $\beta$ 是使用 $\beta = (\lambda I+K)^{-1}y$ 算出来，并没有通过加什么限制条件使得这些 $\beta$ 很稀疏。所以得到的每一个 $\beta$ 几乎都不是0，那么所有的点就都是 $support\ vector$ 。当 $support\ vector$ 很多的时候，在做 $predict$ 的时候，靠的是和每一个 $SV$ 算出 $kernel$ 然后和 $\beta$ 的乘积和，即， $g(x) = \sum_{n=1}^{N}\beta_nK(x_n, x)$ ，会多花很多的时间。
$kernel\ logistic\ regression$ 和 $kernel\ ridge\ regression$ 求出来的都是很 $dense$ 的 $\beta$ 。而 $soft\ margin\ SVM$ 就具有比较好的性质，最后得到的 $\alpha$ 就是 $sparse$ 的，即很多是0，只有少数不是0。这是从 $KKT\ condition$ 得到的结果。

现在我们想要做的事情是， $regression$ 能不能像 $SVM$ 一样得到比较 $sparse$ 的解？

Tube Regression

在使用平方误差 $square\ error$ 的时候，不管真实值 $y$ 和预测值 $s=w^Tx$ 相差多远，哪怕只是相差一点点，也要记录在 $error$ 中。现在我们对真实值和预测值之间的误差给一个容忍阈值 $\epsilon$ ，也把这个称为 $tube$ ，当真实值和预测值的差值不超过这个容忍阈值的时候，就不记录该差值。结合下图就是说：假设容忍阈值的大小为紫色的宽度，那么所有出现在紫色中的点，虽然真实值和预测值之间存在差距，但是不予计较。

也就是说：

如果 $|s - y| \le \epsilon, \longrightarrow error = 0$
如果 $|s - y| > \epsilon, \longrightarrow error = |s-y|-\epsilon$

结合以上的讨论得到，如果错的超过了我们的阈值，不计较，此时 $|s - y| - \epsilon < 0$ ，即 $err = 0$ ；如果错的超过了我们的阈值，就将 $err$ 记为超过的部分。

e r r (y, s) = m a x (0, | s - y | - ϵ)

$err(y, s) = max(0, |s-y|-\epsilon)$

这个 $error$ 通常被称为 $\epsilon\ insensitive\ error$ ，形式很像在 $SVM$ 中的 $hinge\ error$ 。这样做也是为了让 $regression$ 和有 $sparse$ 解的 $SVM$ 取得关联。

我们现在要做的事情是，将带有 $L2\ regularized$ 的 $tube\ regression$ 进行一系列的推到得到它的稀疏的解 $\beta$ 。

Tube和Squared Regression对比

$tube：err(y, s) = max(0, |y-s|-\epsilon)$
$squared：err(u, s) = (s - y)^2$

将两种 $error$ 画在下图中，可以看出，当 $|y-s|$ 比较小的时候， $tube$ 和 $squared$ 的 $error$ 其实是很接近的。当 $|y-s|$ 比较大的时候， $squared$ 会上升的比较快，而 $tube$ 则比较平缓。所以 $squared$ 更容易受到噪音的影响，相对来说可能 $tube$ 会好一点。稍后会看到，使用 $\epsilon\ insensitive\ error$ 这样的方式会让我们得到稀疏的解。

L2-Regularized Tube Regression

现在我们要求解的是一个带有 $L2$ - $regularize$ 正则化因子的 $tube\ regression$ 问题。

m i n w λ N w T w          r e g u l a r i z e + 1 N \sum n = 1 N m a x (0, | w T z n - y | - ϵ)                          t u b e e r r o r

$\mathop{min}\limits_{w} \quad \underbrace{\frac{\lambda}{N}w^Tw}_{regularize} + \frac1N\sum_{n=1}^{N} \underbrace{max(0, |w^Tz_n - y| - \epsilon)}_{tube\ error}$

回想一下 $soft\ margin\ SVM$ 问题的求解过程， $SVM$ 问题解决的是 $L2$ - $Regularize$ 加上 $margin\ violation$ 的最小化问题： $min \frac12w^Tw + C\sum margin\ violation$ ，我们发现直接解决这样的一个问题是困难的，因为同样也会碰到 $max$ 函数无法微分的问题，所以我们重新将其写成了一个 $quadratic\ programming$ 的问题，这样就比较容易求解。然后通过求解该问题的对偶问题可以使用 $kernel$ 技巧。同时 $KKT\ conditional$ 会保证解的稀疏性。

所以我们现在要做的事情就是模仿 $SVM$ 的解法来解决 $tube\ regression$ 。所以先要将 $tube\ regression$ 表示成一个 $quadratic\ programming$ 的问题。

所以为了使得 $tube\ regression$ 问题和 $SVM$ 长的比较像，首先做如下的效的调整， $SVM$ 中习惯用的参数是 $C$ 而不是 $\lambda$ ，将 $w_0$ 独立出来写作 $b$ 。这样就得到了如下的问题：

Standard Support Vector Regression Primal

SVR Primal

m i n w, b 1 2 w T w + C \sum n = 1 N m a x (0, | w T z n + b - y | - ϵ)

$\mathop{min}\limits_{w, b} \quad \frac12w^Tw + C\sum_{n=1}^{N}max\big(0, |w^Tz_n + b - y| - \epsilon \big)$

变成一个二次规划问题的关键是将 $max$ 变形，为此我们引进了一个新的变量 $\xi_n$ ， $\xi_n$ 记录了真实值和预测值的差值比 $\epsilon$ 大多少，且 $\xi_n\ge0$ 。

m i n b, w, ξ s . t . 1 2 w T w + C \sum n = 1 N ξ n | w T z n + b - y n | \leq ϵ + ξ n ξ n \geq 0

$\begin{align} \mathop{min}\limits_{b,w,\xi} \quad &\frac12w^Tw + C\sum_{n=1}^{N}\xi_n \\ s.t. \quad &|w^Tz_n + b - y_n| \le \epsilon + \xi_n \\ & \xi_n\ge0 \end{align}$

还不是 $QP$ 问题，因为条件不是线性的，需要去掉绝对值。

m i n b, w, ξ s . t . 1 2 w T w + C \sum n = 1 N (ξ \land n + ξ \lor n) - ϵ - ξ \lor n \leq y n - w T z n - b \leq ϵ + ξ \land n ξ \lor n \geq 0, ξ \lor n \geq 0

$\begin{align} \mathop{min}\limits_{b,w,\xi} \quad &\frac12w^Tw + C\sum_{n=1}^{N}(\xi_n^{\land}+\xi_n^{\lor}) \\ s.t. \quad &-\epsilon - \xi_n^{\lor} \le y_n - w^Tz_n - b \le \epsilon + \xi_n^{\land} \\ & \xi_n^{\lor}\ge0, \xi_n^{\lor}\ge0 \end{align}$

现在就得到了一个标准的 $QP$ 问题。我们将这个问题成为称为标准的 $Support\ Vector\ Regression(SVR)$ 的 $Primal$ 问题。

$SVR：minimize \quad regularizer + (upper\ tube\ violation\ \xi_n^{\land} and\ lower\ tube\ violations\ \xi_n^{\lor})$

$SVR$ 的 $Primal$ 问题如下：

m i n b, w, ξ \lor n, ξ \land n s . t . 1 2 w T w + C \sum n = 1 N (ξ \land n + ξ \lor n) - ϵ - ξ \lor n \leq y n - w T z n - b \leq ϵ + ξ \land n ξ \lor n \geq 0, ξ \lor n \geq 0

$\begin{align} \mathop{min}\limits_{b,w,\xi_n^{\lor},\xi_n^{\land}} \quad &\frac12w^Tw + C\sum_{n=1}^{N}(\xi_n^{\land}+\xi_n^{\lor}) \\ s.t. \quad &-\epsilon - \xi_n^{\lor} \le y_n-w^Tz_n - b \le \epsilon + \xi_n^{\land} \\ & \xi_n^{\lor}\ge0, \xi_n^{\lor}\ge0 \end{align}$

从图中可以看出，就是通过最小化所有的红线长度的和加上规则化因子来得到一条比较好的分割线。

参数 $C$ 用来衡量对误差的重视程度，越大则表明想要更小的误差，与此同时就会带来更大的模型复杂度； $C$ 越小相对来说 $\frac12w^Tw$ 占有的比重就越大，正则化起到的作用就越大，即想要更加简单的模型复杂度。
参数 $\epsilon$ 用来决定 $tube$ 的宽度， $tube$ 的宽度是2 $\epsilon$ 。所以可以用来调节容忍的程度，越大表明对预测值和真实值的差值有越大的容忍度。

所以 $SVR$ 和 $SVM$ 相比来说多一个可以调节的参数 $\epsilon$ 。
这个二次规划问题的变数有 $2N+1+\tilde{d}$ ，约束的个数 $2N+2N$ 个。那么接下来我们关心的问题是怎么把 $\tilde{d}$ 的影响移除掉。和 $SVM$ 的做法一样，需要把这个问题转换成一个对偶问题，在转换为一个对偶问题之后，就可以使用 $kernel\ trick$ 避免在 $Z$ 空间中的运算，也就是说就和 $Z$ 空间的维度 $\tilde{d}$ 没有关系了。

Support Vector Regression Dual

$SVR$ 的 $Primal$ 问题如下：

m i n b, w, ξ \lor n, ξ \land n s . t . 1 2 w T w + C \sum n = 1 N (ξ \land n + ξ \lor n) - ϵ - ξ \lor n \leq y n - w T z n - b \leq ϵ + ξ \land n ξ \lor n \geq 0, ξ \lor n \geq 0

现在有了 $SVR$ 的 $Primal$ 形式，接下来我们希望可以得到 $SVR$ 的 $Dual$ 形式。所以我们引入 $Lagrange\ multiplier$ ，

针对条件： $y_n-w^Tz_n - b \le \epsilon + \xi_n^{\land}$ ，引入乘子 $\alpha_n^{\land}$ ；
针对条件： $-\epsilon - \xi_n^{\lor} \le y_n-w^Tz_n - b$ ，引入乘子 $\alpha_n^{\lor}$ 。

那么接下来就是写出 $Lagrange$ 函数，然后对里面的变量求微分，使用KKT条件对 $Lagrange$ 函数做替换得到一个新的问题，这个新的问题就是我们想要得到的对偶问题。类似于SVM的对偶问题的推导。

这里只给出一些最后推到的结果：

利用 $KKT$ 条件对 $w_i$ 进行求导并令结果为0可以得到：
$\partial L \partial w i = 0 ⟶ w = \sum n = 1 N (α \land n - α \lor n) z n$ $\frac{\partial L}{\partial w_i} = 0 \longrightarrow w = \sum_{n=1}^{N}(\alpha_n^{\land} - \alpha_n^{\lor})z_n$ 这个和在 $SVM$ 得到的结果是一样的，即 $w$ 会是 $z$ 的线性组合。
利用 $KKT$ 条件对 $b$ 进行求偏导并令结果为0可以得到：
$\partial L \partial b = 0 ⟶ \sum n = 1 N (α \land n - α \lor n) = 0$ $\frac{\partial L}{\partial b} = 0 \longrightarrow \sum_{n=1}^{N}(\alpha_n^{\land} - \alpha_n^{\lor}) = 0$
利用 $KKT$ 条件得最佳解满足：
$α \land n (ϵ + ξ \lor n - y n + w T z n + b) = 0, α \land n (ϵ + ξ \lor n - y n + w T z n + b) = 0$ $\alpha_n^{\land}(\epsilon+\xi_{n}^{\lor}-y_n+w^Tz_n+b) = 0, \quad \alpha_n^{\land}(\epsilon+\xi_{n}^{\lor}-y_n+w^Tz_n+b) = 0$

经过推导之后，SVR的对偶形式如下：

m i n s . t . 1 2 \sum n = 1 N \sum m = 1 N (α \land n - α \lor n) (α \land m - α \lor m) K (x n, x m) + \sum n = 1 N ((ϵ - y n) \cdot α \land n + (ϵ + y n) \cdot α \lor n) \sum n = 1 N 1 \cdot (α \land n - α \lor n) = 0 C \geq α \land n \geq 0, C \geq α \lor n \geq 0

$\begin{align} min & \frac12\sum_{n=1}^{N}\sum_{m=1}^{N}(\alpha_{n}^{\land} - \alpha_n^{\lor})(\alpha_{m}^{\land} - \alpha_m^{\lor})K(x_n, x_m) + \sum_{n=1}^{N}((\epsilon - y_n)\centerdot \alpha_{n}^{\land}+(\epsilon + y_n)\centerdot \alpha_{n}^{\lor})\\ s.t. & \sum_{n=1}^{N} 1 \centerdot (\alpha_{n}^{\land} - \alpha_{n}^{\lor}) = 0 \\ & C\ge\alpha_{n}^{\land}\ge0, C\ge\alpha_{n}^{\lor}\ge0 \end{align}$

我们推导 $SVR$ 的最初的目的是为了得到稀疏的解。现在我们就来看看我们有没有达到目的。现在我们已经知道了最佳的解 $w$ 可以表示为 $z$ 的线性组合，那么在什么情况下 $\beta_n$ 是 $0$ 呢？

w = \sum n = 1 N (α \land n - α \lor n)            β n z n

$w = \sum_{n=1}^{N}\underbrace{(\alpha_n^{\land} - \alpha_n^{\lor})}_{\beta_n}z_n$

从 $KKT$ 条件告诉我们的如下的两个 $complementary\ slackness$ 出发，

α \land n (ϵ + ξ \lor n - y n + w T z n + b) = 0, α \land n (ϵ + ξ \lor n - y n + w T z n + b) = 0

$\alpha_n^{\land}(\epsilon+\xi_{n}^{\lor}-y_n+w^Tz_n+b) = 0, \quad \alpha_n^{\land}(\epsilon+\xi_{n}^{\lor}-y_n+w^Tz_n+b) = 0$

我们考虑严格位于 $tube$ 中的数据点： $|w^Tz_n + b - y_n| < \epsilon$

w h e n | w T z n + b - y n | < ϵ ⟶ ξ \lor n = ξ \land n = 0 ⟶ ϵ + y n + w T z n + b \neq 0, ϵ - y n + w T z n + b \neq 0 ⟶ α \lor n = α \land n = 0 ⟶ β n = 0

$\begin{align} when\quad & |w^Tz_n + b - y_n| < \epsilon \\ & \longrightarrow \xi_n^{\lor} = \xi_n^{\land} = 0 \\ & \longrightarrow \epsilon+y_n+w^Tz_n+b \ne 0, \epsilon-y_n+w^Tz_n+b\ne 0 \\ &\longrightarrow \alpha_n^{\lor} = \alpha_n^{\land} = 0 \\ & \longrightarrow \beta_n = 0 \end{align}$
所以当预测值和真实值的差值的绝对值小于

ϵ $\epsilon$ ，即位于

tube $tube$ 之间的时候，这些数据点对于最佳解

w $w$ 没有贡献。所以只有在

tube $tube$ 外面或者是边界上的点才对

w $w$ 有影响的点，也就是 $support\ vectors$ 。到这里我们就证明了可以用 $SVR$ 这样的模型得到 $sparse$ 的解。

Summary of Kernel Models

线性模型

本系列中涉及的线性模型主要有三个

$PLA/pocket$ 用于分类，直接优化 $err_{0/1}$ ；
$Logistic\ Regression$ 用于 $soft$ 分类，其方法是最小化 $cross\ entropy\ error$ 或者说是 $logistic\ error$ - $err_{CE}$ ，通常使用 $SGD$ 或者 $GD$ 。如果加上正则化项就是 $regularized\ logistic\ regression$ 。
$Linear\ Regression$ 用于对实数的回归分析，通过最小化 $err_{square}$ 可以得到解析解。如果加上正则化项就是 $linear\ ridge\ regression$ 。
之后介绍了另外一种线性模型 $linear\ soft\ margin\ SVM$ ，也是用于解决线性的分类问题，使用的 $error\ function$ 被称为是 $hinge\ error$ ，通过求解一个 $QP$ 问题得到最优解。
$Regression$ 的另一种做法是 $linear\ SVR$ ，同样是使用二次规划最小化 $err_{tube}$ 。

$LIBLINEAR$ 中实现了第二行的三种模型。

以上线性的模型只要加上 $regularizer$ 都可以延伸成 $kernel$ 的模型。

$linear\ soft\ margin\ SVM$ 延伸成 $SVM$ ， $SVM$ 解决的不再是 $primal$ 问题，而是对偶问题；
$linear\ SVR$ 的 $kernel$ 延伸是 $SVR$ ，同样也是解决对偶问题；
通过 $representer\ theorem$ 可以将 $linear\ ridge\ regression$ 变为 $kernel\ ridge\ regression$ ；
可以将 $regularized\ logistic\ regression$ 变为 $kernel\ logistic\ regression$ ；
$kernel\ logistic\ regression$ 通常会被 $Probabilistic\ SVM$ ，也就是 $two\ level\ learning$ 取代；

$LIBSVM$ 实现了最后一行的所有的三种模型。

针对上图中模型的实用度做简单的记录：第一行 $PLA/pocket$ 和 $linear\ SVR$ 很少被使用，通常会被它们下面的两个模型分别取代；第三行的 $kernel\ ridge\ regression$ 和 $kernel\ logistic\ regression$ 也比较少用，因为这两个模型的解不是稀疏的，通常会被它们下面的两个模型分别取代。

总结

本篇主要讲解了 $Support\ Vector\ Regression$ ，我们一开始的出发点是如何将 $Ridge\ Regression$ 变为 $kernel$ 的形式， $representer\ theorem$ 理论帮助我们完成了这个工作，但是通过这样的方法得到的解不是稀疏的，我们想要的 $sparse$ 的解，所以我们通过推导带有 $regularizer$ 的 $tube\ error$ 得出了 $SVR$ 的原始问题，进一步推导了 $SVR$ 的对偶问题。最后根据 $KTT$ 条件得到了稀疏的解。

回顾

SVM学习笔记-线性支撑向量机
SVM学习笔记-对偶形式的SVM
SVM学习笔记-核函数与非线性SVM
SVM学习笔记-软间隔SVM
Kernel Logistic Regression
Support Vector Regression(SVR)

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

土肥宅娘口三三

关注关注

1
点赞

踩

21

收藏

觉得还不错? 一键收藏

0
评论

机器学习笔记-Support Vector Regression(SVR)

Support Vector Regression（SVR）上一篇中的内容是KLR（kernel logistic regression）KLR（kernel\ logistic\ regression）。这个问题的出发点是我们想要把SVMSVM这个强大的工具用在soft binary classificationsoft\ binary\ classification上，我们有两种选择：第一种方
复制链接

扫一扫

专栏目录

Opencv学习笔记 - 使用opencvsharp和支持向量机

学以致用知行合一

12-10 3065

以统计学习理论为基础的支持向量机被广泛应用于机器学习的各个领域，是最通用的万能分类器。20世纪90年代，针对当时的神经网络在小样本条件下的不良表现，人们试图从更本质的层次上寻求一种更好的学习机器。在这种需求的激发下，产生了统计学习理论，即研究小样本条件下机器学习规律的理论。1995年，出现了基于统计学习理论的支持向量机（Support Vector Machine，SVM）。与神经网络相比，对于有限样本的学习问题，统计学习理论具有更坚实的数学理论基础，因此SVM取得了很大的成功。

支持向量回归(Support Vector Regression)

u014611178的博客

10-19 4万+

支持向量回归(Support Vector Regression) 支持向量机除了能够分类，还可以用于回归。回归的目的是得到一个能够尽量拟合训练集样本的模型f(x)f(\mathbf{x})f(x)，通常用的方法是构建一个样本标签与模型预测值的损失函数，使损失函数最小化从而确定模型f(x)f(\mathbf{x})f(x)。例如，在线性回归模型中，损失函数(L2损失，L1损失，huber损失)由模型输出f(x)f(\mathbf{x})f(x)与真实输出yyy之间的差别来计算，通过最小化损失函数来确

参与评论您还未登录，请先登录后发表或查看评论

台湾大学林轩田机器学习技法课程学习笔记6 -- Support Vector Regression

红色石头的专栏

07-09 5270

我的CSDN博客地址：红色石头的专栏我的知乎主页：红色石头我的微博：RedstoneWill的微博我的GitHub：RedstoneWill的GitHub 我的微信公众号：红色石头的机器学习之路（ID：redstonewill）欢迎大家关注我！共同学习，共同进步！上节课我们主要介绍了Kernel Logistic Regression，讨论如何把S...

十六、【人工智能】【机器学习】【监督学习】- 支持向量回归 (SVR)

最新发布

技术分享、程序员趣事、行业趋势等内容！

07-18 1118

在先前的文章系列中，我们深入探讨了机器学习的基础框架和算法分类，为读者构建了关于这一领域的坚实理论基础。本章节我们将焦点转向监督学习领域中的一个核心算法—— 神经网络回归，旨在详尽解析其内在逻辑、应用实践及重要参数调整策略。监督学习（Supervised Learning）是机器学习中的一种主要方法，其核心思想是通过已知的输入-输出对（即带有标签的数据集）来训练模型，从而使模型能够泛化到未见的新数据上，做出正确的预测或分类。

监督学习 - 支持向量回归（Support Vector Regression，SVR）

galoiszhou的博客

01-12 1159

在实际应用中，你可以使用机器学习库中的 SVR 实现，比如 Scikit-Learn。SVR 在解决回归问题时的主要思想是通过寻找一个决策边界，使得预测值与实际值之间的差异尽可能小，并且在一定的容忍度内。，用于解决回归问题。与传统的回归算法不同，SVR的目标是通过构建一个预测函数，使得预测值与实际值的差异最小化。在实际应用中，你可能需要根据你的数据和问题来调整这些参数。这个问题的解决方法通常使用拉格朗日乘数法和 KKT 条件。参数指定了核函数的类型（这里使用了径向基函数核，即。

[机器学习]回归--Support Vector Regression(SVR)

热门推荐

摩登都市天空---专栏

05-09 6万+

SVM分类，就是找到一个平面，让两个分类集合的支持向量或者所有的数据（LSSVM）离分类平面最远； SVR回归，就是找到一个回归平面，让一个集合的所有数据到该平面的距离最近。 SVR是支持向量回归(support vector regression)的英文缩写，是支持向量机(SVM)的重要的应用分支。传统回归方法当且仅当回归f(x)完全等于y时才认为预测正确，如线性回归中常用(f(x...

support vector regression（SVR）支持向量回归

weixin_44177594的博客

04-26 1949

支持向量机、回归、机器学习 SVR---“宽容的回归模型”引出：请你说说回归问题可以设置支持向量机吗线性回归SVR---“宽容的回归模型”模型函数原理SVR的两个松弛变量主问题数学描述引出：请你说说回归问题可以设置支持向量机吗支持向量分类方法可以推广到解决回归问题。这种方法称为支持向量回归，即support vector regression（SVR）线性回归线性回归：在向量空间里用线性函数去拟合样本。该模型以所有样本实际位置到该线性函数的综合距离为损失，通过最小化损失来求取线性函数的参数。严格

《Machine Learning A-Z》Part 2 (4) - Support Vector Regression(SVR)

weixin_45566492的博客

08-09 145

06.08.2021 06.08.2021 Part 2 Regression (4) Support Vector Regression (SVR) 支持向量回归涉及到的一个非常重要的方法：最小二乘法（Ordinary Least Squares)--> min The least squares method is a statistical procedure to find the best fit for a set of data points by minimizi..

SVR(Support Vector Regression)基础学习(一)——SVM基础

Ehyeh_tian的博客

12-17 1014

这篇文章主要回顾SVM支持向量机的基础知识。 SVM(Support Vector Machine)用来处理分类(classification)问题时，每个instance对应的label是离散的相异类别(SVM中常用整数来表示)，SVM的目的是在空间中找到将instance一分为二的平，且所有instance到这个平面的间隔达到最大。SVM的基本模型定义为特征空间上的间隔最大的线性分类器，最终...

[机器学习入门] 李宏毅机器学习笔记-23（Support Vector Machine；支持向量机）

Holeung blog

07-08 3560

[机器学习入门] 李宏毅机器学习笔记-23（Support Vector Machine；支持向量机） PDF VIDEOSupport Vector Machine Outline Hinge LossBinary Classification 分为三步。 δ不可微分，所以变化一下。 step 2 ：Loss function 红色这条线就是Square Loss的表现，与

Coursera机器学习-第七周-Support Vector Machine

BD的笔记

06-13 6466

Large Margin Classification 支持向量机(Support vector machine)通常用在机器学习 (Machine learning)。是一种监督式学习 (Supervised Learning)的方法，主要用在统计分类 (Classification)问题和回归分析 (Regression)问题上。支持向量机属于一般化线性分类器，也可以被认为是提克洛夫规范化（Ti

Support Vector Regression：在线支持向量回归（使用高斯核）-matlab开发

05-29

在线回归在线学习算法不限于分类问题。内核 adatron 算法的更新规则还建议了用于创建优化的在线版本的通用方法。使内核 adatron 算法的第一次更新等价于 αi ← αi + ∂W(α) ∂αi 使其成为一种简单的梯度上升算法，并通过修正来确保满足附加约束。例如，如果我们将相同的方法应用于支持向量回归算法的线性 ε 不敏感损失版本。 支持向量机的优点之一，支持向量回归作为它的一部分，它可以用来避免在高维特征空间中使用线性函数的困难，并将优化问题转化为对偶凸二次规划。在回归情况下，损失函数用于惩罚大于阈值 - 的错误。这种损失函数通常会导致决策规则的稀疏表示，从而带来显着的算法和表示优势。参考：模式分析的内核方法作者：John Shawe-Taylor & Nello Cristianini http://kernelsvm.tripod.com/

支持向量机SVM和支持向量回归SVR算法合集(亲测可用)

03-29

适合初学者学习的SVM、SVR工具箱该工具箱包括了二种分类,二种回归,以及一种一类支持向量机算法 (1) Main_SVC_C.m --- C_SVC二类分类算法 (2) Main_SVC_Nu.m --- Nu_SVC二类分类算法 (3) Main_SVM_One_Class.m --- One-Class支持向量机 (4) Main_SVR_Epsilon.m --- Epsilon_SVR回归算法 (5) Main_SVR_Nu.m --- Nu_SVR回归算法另附： (1) 目录下以Main_开头的文件即是主程序文件,直接按快捷键F5运行即可 (2) 工具箱中所有程序均在Matlab6.5环境中调试通过，不能保证在Matlab其它版本正确运行

常见机器学习算法例程分析(毕设笔记6)

fenggang2333的博客

03-05 482

常见机器学习算法例程分析(毕设笔记6) 年后有两门课要考试，再加上摸摸鱼。。就到现在了。这次打算从毕业设计会用到的几个简单的开源库开始分析，最后分析opencv的。 libsvm 目标算法：SVM 使用到开源库自带的例程svm-train，使用的数据是package中自带的心率数据(heart_scale). 数据集特征：271个数据点，标签为正负1，数据维度为13维训练方式：./svm-train heart_scale 优势：具有较多备选数据集https://www.csie.ntu.edu.tw/

机器学习概念总结笔记（一）——机器学习算法分类、最小二乘回归、岭回归、LASSO回归

abele280的博客

06-19 2252

原文：https://cloud.tencent.com/community/article/137341 机器学习概念总结 1，机器学习算法分类 1）监督学习：有train set，train set里面y的取值已知。 2）无监督学习：有train set, train set里面y的取值未知。 3）半监督学习：有train set， train set里面y的取值有些知道有些不知道。 4）增强学习：reinforcement learning，无train set。 2，常见算法

support vector regression与 kernel ridge regression

weixin_30454481的博客

05-18 125

前一篇，我们将SVM与logistic regression联系起来，这一次我们将SVM与ridge regression（之前的linear regression）联系起来。（一）kernel ridge regression 之前我们之前在做的是linear regression，现在我们希望在regression中使用kernel trick。下面是linear ve...

台湾国立大学机器学习技法.听课笔记（第六讲）:Support Vector Regression

Paul_Huang的专栏

09-20 2379

台湾国立大学机器学习技法.听课笔记（第六讲） :Support Vector Regression 一，Kernel Ridge Regression 1.提出线性岭回归问题我们上一讲学习了解决Two-level的问题时，我们可以用两种方法解决：我们上一讲是的Representer Theorem的基本形式是：那么ridge regre

机器学习技法笔记6：support vector regression（SVR）

wang_buaa的博客

09-08 1666

6-1 Kernel Ridge Regression 上节课我们主要介绍了Kernel Logistic Regression，讨论如何把SVM的技巧应用在soft-binary classification上。方法是使用2-level learning，先利用 SVM得到参数b和w，然后再用通用的logistic regression优化算法，通过迭代优化，对参数b和w进行微调，得到最佳...

support vector regression

03-16

支持向量回归（Support Vector Regression，SVR）是一种基于支持向量机（Support Vector Machine，SVM）的回归方法。它通过在特征空间中找到一个最优的超平面，将样本点映射到高维空间中，从而实现对回归函数的建模...