机器学习——SVM的回归形式(SVR)

最新推荐文章于 2024-07-22 16:40:28 发布

daocaoren_

最新推荐文章于 2024-07-22 16:40:28 发布

阅读量4.9k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/daocaoren_/article/details/100077809

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

岭回归(ridge regression)
在前面的一篇博客(机器学习——线性回归(Linear Regression))中提到，线性回归的解析解如下，
$w = {({X^T}X)^{ - 1}}{X^T}y$
其中，X的维数为 $\times (d + 1)$ 。因为大多数情况下样本量(N)是远大于特征数(d)的，所以， $X^TX$ 常常是可逆的。但当X不是列满秩矩阵时，即特征数比样本数还要多，则 $X^TX$ 的行列式为0， $X^TX$ 不可逆；或者X的某些列的线性相关性比较大时， $X^TX$ 的行列式接近0，此时 $X^TX$ 为病态矩阵，此时计算逆矩阵误差会比较大。

为了解决 $X^TX$ 矩阵求逆的问题，给矩阵 $X^TX$ 加上一个 $\lambda I$ ，从而使矩阵非奇异，进而能对 ${X^T}X + \lambda I$ 求逆，这就是岭回归。

即岭回归的系数计算式为，
${({X^T}X + \lambda I)^{ - 1}}{X^T}Y$

上式中的 $\lambda I$ 其实是正则化的一种体现，上式是L2-regularized linear regression的解析解，计算过程描述如下：
首先，L2-regularized linear regression的问题可以描述为，
$\mathop {\min }\limits_w \;\frac{\lambda }{N}{w^T}w + \frac{1}{N}\sum\limits_{n = 1}^N {{{({y_n} - {w^T}{x_n})}^2}}$
写成矩阵形式为，
$\mathop {\min }\limits_w \;\frac{\lambda }{N}{w^T}w + \frac{1}{N}{\left\| {Xw - y} \right\|^2}$
对上式求梯度，
$\nabla (w) = \frac{{2\lambda }}{N}w + \frac{1}{N}(2{X^T}Xw - 2{X^T}y) = \frac{2}{N}((\lambda I + {X^T}X)w - {X^T}y) = 0$
令梯度为0，求得系数w，为，
${({X^T}X + \lambda I)^{ - 1}}{X^T}Y$

所以，岭回归的系数解析解其实是对线性回归进行L2正则化的一种体现。

最小二乘支持向量机(LSSVM)

在上一篇博客中，提到了Representer Theorem，即对于任意的L2正则化的线性模型，其最佳化的 $w$ 均可表示为资料线性组合的形式，所以可以考虑把Kernel用在岭回归里，叫做kernel ridge regression。

由于 $\sum\limits_{i = 0}^N {{\beta _n}{z_n}}$ ，所以一旦把岭回归kernel化之后，实际上就是用参数 $\beta$ 取代了原来的参数 $w$ ，则现在的kernel ridge regression问题可以描述如下，
$\begin{array}{l} \mathop {\min }\limits_\beta \;\frac{\lambda }{N}\sum\limits_{n = 1}^N {\sum\limits_{m = 1}^N {{\beta _n}{\beta _m}K({x_n},{x_m})} + \frac{1}{N}} \sum\limits_{n = 1}^N {{{({y_n} - \sum\limits_{m = 1}^N {{\beta _m}K({x_n},{x_m})} )}^2}} \\\\ \;\; = \frac{\lambda }{N}{\beta ^T}K\beta + \frac{1}{N}({\left\| {y - K\beta } \right\|^2})\;\;\;\;\;\;\;-转化为矩阵形式\\\\ \;\; = \frac{\lambda }{N}{\beta ^T}K\beta + \frac{1}{N}({\beta ^T}{K^T}K\beta - 2{\beta ^T}{K^T}y + {y^T}y) \end{array}$
求上式的梯度，如下，
$\begin{array}{l} \nabla E(\beta ) = \frac{2}{N}(\lambda {K^T}I\beta + {K^T}K\beta - {K^T}y)\\\\ \;\;\;\;\;\;\;\;\;\;\;\; = \frac{2}{N}{K^T}((\lambda I + K)\beta - y)\\\\ (这里的K是一个半正定的对称矩阵) \end{array}$
让 $\nabla {\rm{E}}(\beta ) = 0$ ，可以得到如下的解析解，
$\beta = {(\lambda I + K)^{ - 1}}y$
该解一定存在，因为 $\lambda > 0$ ，并且K一定是一个半正定矩阵，所以， $\lambda I + K$ 一定可逆。

上面的是kernel ridge regression的参数求解过程，而LSSVM实际上就是kernel ridge regression用于分类的情况，即，

Least-squares SVM(LSSVM)= kernel ridge regression for classification

但LSSVM求解的时间复杂度达到了 $O(N^3)$ ，且求解过程中，矩阵K是稠密的。

下面是linear ridge regression和kernel ridge regression的一个对比，

linear ridge regression	kernel ridge regression

${({X^T}X + \lambda I)^{ - 1}}{X^T}Y$	$\beta = {(\lambda I + K)^{ - 1}}y$
限制更多，形状比较简单	更加灵活，边界可以很复杂
训练复杂度： $O(d^3+d^2N)$ 预测复杂度： $O (d)$	训练复杂度： $O(N^3)$ 预测复杂度： $O (N)$
当 $N > > d$ 时，计算很高效	对于样本数多的情况，计算量太大

所以，从上表可以看出，linear与kernel其实就是对efficiency和flexibility的一个取舍。

Tube Regression

在介绍Tube Regression之前，首先先对Soft-Margin SVM和LSSVM做一个对比，下面两张图是对同一个案例，分别用这两方法所求得的边界示意，
在这里插入图片描述
图中，正方形所框选出的都是支持向量(SVs)，从中可以看出，LSSVM有更多的SVs，这就意味着其参数 $\beta$ 是稠密的，预测起来，也会更慢。但之前说过，标准的SVM求得的系数 $\alpha$ 是稀疏的，所以，要找到一种方法，获得一个稀疏的 $\beta$ ——Tube Regression。

在这里插入图片描述

在tube内(紫色区域内)：没有错误
在tube外：计算到tube的距离当作error(红色线为error)

则其误差衡量方式为，
$\max (0,\left| {s - y} \right| - \varepsilon )$
这中误差叫做 ${\rm{\varepsilon - insensitive\;\; error}}$ ，有如下关系，

$\begin{array}{l} 当\left| {s - y} \right| \le \varepsilon :误差为0\\ 当\left| {s - y} \right| > \varepsilon :误差为\left| {s - y} \right|{\rm{ - }}\varepsilon \end{array}$

下面将Tube Regression和Squared Regression做一个对比，

Tube Regression	Squared Regression

误差图像如下，
在这里插入图片描述

当 $\left| {s - y} \right|$ 很小时， $\approx squared$ ;
当 $\left| {s - y} \right|$ 越来越小时，即从中间向两边，tube增长缓慢，不容易受noise影响。

加入L2 regularizer之后，即L2-Regularized Tube Regression描述如下，

$\mathop {\min }\limits_w \;\frac{\lambda }{N}{w^T}w + \frac{1}{N}\sum\limits_{n = 1}^N {\max (0,\left| {{w^T}{z_n} - y} \right| - \varepsilon )}$

将上式改写，可得到SVR的原始形式如下，

$\mathop {\min }\limits_{b,w} \;\frac{1}{2}{w^T}w + C\sum\limits_{n = 1}^N {\max (0,\left| {{w^T}{z_n} + b - {y_n}} \right| - \varepsilon )}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;——Standard \;\;SVR \;\;Primal$

上述问题的形式，比方便求解，对比之前SVM部分的推导，将其进行改写，改写后的等价最优化问题如下，
$\begin{array}{l} \mathop {\min }\limits_{b,w,{\xi ^ \wedge },{\xi ^ \vee }} \;\;\frac{1}{2}{w^T}w + C\sum\limits_{n = 1}^N {(\xi _n^ \vee + \xi _n^ \wedge )} \\\\ \;\;\;s.t.\;\;\; - \varepsilon - \xi _n^ \vee \le {y_n} - {w^T}{z_n} - b \le \varepsilon + \xi _n^ \wedge \\\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\xi _n^ \vee \ge 0,\xi _n^ \wedge \ge 0 \end{array}$

其中，参数C的含义：regularization和tube violation的权衡
参数 $\varepsilon$ 的含义：tube的宽度

上述问题可用QP来求解，共有 $\tilde d + 1 + 2N$ 个变量，4N条约束，接下来，就是把primal问题转为dual问题，移除对 $\tilde d$ 的依赖。

引入拉格朗日乘子 ${\alpha ^ \wedge }\& {\alpha ^ \vee }$ ：
$\begin{array}{l} 目标方程\;\;\;\;\;\;\;\;\;\frac{{\rm{1}}}{{\rm{2}}}{w^T}w + C\sum\limits_{n = 1}^N {(\xi _n^ \vee + \xi _n^ \wedge )} \\\\ 加入\alpha _n^ \wedge \;\;\;\;for\;\;\;\;\;{y_n} - {w^T}{z_n} - b \le \varepsilon + \xi _n^ \wedge \\\\ 加入\alpha _n^ \vee \;\;\;\;for\;\; - \varepsilon - \xi _n^ \vee \le {y_n} - {w^T}{z_n} - b \end{array}$

KKT条件：
$\begin{array}{l} \frac{{\partial L}}{{\partial {w_i}}} = 0:\;\;\;\;\;\;\;w = \sum\limits_{n = 1}^N {(\underbrace {\alpha _n^ \wedge - \alpha _n^ \vee }_{{\beta _n}})} {z_n}\\\\ \frac{{\partial L}}{{\partial b}} = 0:\;\;\;\;\;\;\;\;\sum\limits_{n = 1}^N {(\alpha _n^ \wedge - \alpha _n^ \vee )} = 0\\\\ {\rm{complementary \;\;slackness:}}\begin{array}{} {\alpha _n^ \wedge (\varepsilon + \xi _n^ \wedge - {y_n} + {w^T}{z_n} + b) = 0}\\ {\alpha _n^ \vee (\varepsilon + \xi _n^ \vee + {y_n} - {w^T}{z_n} - b) = 0} \end{array} \end{array}$

推导过程略，下面直接给出SVR Dual：
$\begin{array}{l} \min \;\frac{1}{2}\sum\limits_{n = 1}^N {\sum\limits_{m = 1}^N {(\alpha _n^ \wedge - \alpha _n^ \vee )(\alpha _m^ \wedge - \alpha _m^ \vee ){K_{n,m}}} } + \sum\limits_{n = 1}^N {((\varepsilon - {y_n}) \cdot \alpha _n^ \wedge + (\varepsilon + {y_n}) \cdot \alpha _n^ \vee )} \\\\ s.t.\;\sum\limits_{n = 1}^N {(\alpha _n^ \wedge - \alpha _n^ \vee )} \\\\ \;\;\;\;\;\;0 \le \alpha _n^ \wedge \le C,0 \le \alpha _n^ \vee \le C \end{array}$

与QP的形式相似，可以用相似的求解器来求解。

SVR解的稀疏性解释：
根据KKT条件，有如下关系：

$\begin{array}{l} w = \sum\limits_{n = 1}^N {(\underbrace {\alpha _n^ \wedge - \alpha _n^ \vee }_{{\beta _n}})} {z_n}\\ {\rm{complementary\;\; slackness:}}\begin{array}{} {\alpha _n^ \wedge (\varepsilon + \xi _n^ \wedge - {y_n} + {w^T}{z_n} + b) = 0}\\ {\alpha _n^ \vee (\varepsilon + \xi _n^ \vee + {y_n} - {w^T}{z_n} - b) = 0} \end{array} \end{array}$
而根据tube regression，把数据点分为两部分，即

在tube之内的点，有，

$\begin{array}{l} \left| {{w^T}{z_n} + b - {y_n}} \right| < \varepsilon \\\\ \Rightarrow \xi _n^ \wedge = 0,\xi _n^ \vee = 0\\\\ \Rightarrow (\varepsilon + \xi _n^ \wedge - {y_n} + {w^T}{z_n} + b) \ne 0,(\varepsilon + \xi _n^ \vee + {y_n} - {w^T}{z_n} - b) \ne 0\\\\ \Rightarrow \alpha _n^ \wedge = 0,\alpha _n^ \vee = 0\\\\ \Rightarrow {\beta _n} = 0 \end{array}$