Coursera - 机器学习技法 - 课程笔记 - Week 6_1n(βtktkβ 2βtkty+yty)+λnβtkβ 梯度怎么求-CSDN博客

本文链接：https://blog.csdn.net/cary_leo/article/details/105926431

Support Vector Regression

Kernel Ridge Regression

类似对LR的处理，利用对最佳权重的表示理论，有：

$\min_\beta \frac \lambda N \sum_{n = 1}^N \sum_{m = 1}^N \beta_n \beta_m K(\bold x_n, \bold x_m) + \frac 1 N \sum_{n = 1}^N \left( y_n - \sum_{m = 1}^N \beta_m K(\bold x_n, \bold x_m) \right)^2$

前一项可以视为对 $\beta$ 的基于 $K$ 的正则项，后一项是基于 $K$ 作为特征的 $\beta$ 的线性回归

$E_{aug}(\beta) = \frac \lambda N \beta^{\mathrm{T}} \bold K \beta + \frac 1 N (\beta^{\mathrm{T}} \bold K^{\mathrm{T}} \bold K \beta - 2\beta^{\mathrm{T}} \bold K^{\mathrm{T}} \bold y + \bold y^{\mathrm{T}} \bold y)$

解析解？
梯度（ $\bold K$ 为对称矩阵）：

$\begin{aligned} \nabla E_{aug} (\beta) &= \frac 2 N (\lambda \bold K \beta + \bold K^{\mathrm{T}} \bold K \beta - \bold K^{\mathrm{T}} \bold y) \\ &= \frac 2 N (\lambda \bold K^{\mathrm{T}} \bold I \beta + \bold K^{\mathrm{T}} \bold K \beta - \bold K^{\mathrm{T}} \bold y) \\ &= \frac 2 N \bold K^{\mathrm{T}} \left( (\lambda \bold I + \bold K) \beta - \bold y \right) \end{aligned}$

梯度为0，一个可行解：

$\beta = (\lambda \bold I + \bold K) ^ {-1} \bold y$

由于 $\bold K$ 半正定，对于 $\lambda > 0$ 括号项的逆一定存在
原始的岭回归针对线性回归，更加受限，训练的计算复杂度 $O(d^3 + d^2N)$ ，预测的计算复杂度 $O (d)$ ，对大数据友好
核化岭回归针对非线性，更加灵活，训练 $O(N^3)$ ，测试 $O (N)$ ，对大数据不友好

##　Support Vector Regression Primal

核化岭回归——使用最小均方误差的SVM
相比于soft-margin SVM：
- 类似的边界，但是有更多的SV——训练更慢
- 对偶系数更加稠密
能够像标准SVM那样有稀疏的对偶系数——管道回归（Tube Regression）
- 管道内不贡献误差，管道外以到管道的距离作为误差
- $\le \epsilon: 0$
- $\gt \epsilon: |s - y| - \epsilon$
- $\max(0, |s - y| - \epsilon)$
- 称之为 $\epsilon$ 不敏感误差
tube loss类似平方误差，但是更少地受到异常点的影响
含L2正则化的管道回归

$\min_{\bold w} \frac \lambda N \bold w^{\mathrm{T}} \bold w + \frac 1 N \sum_{n = 1}^N \max (0, |\bold w^{\mathrm{T}} \bold z_n - y| - \epsilon)$

修改成类似SVM的形式：

$\min_{\bold w, b} \frac 1 2 \bold w^{\mathrm{T}} \bold w + C \sum_{n = 1}^N \max (0, |\bold w^{\mathrm{T}} \bold z_n + b - y_n| - \epsilon)$

约束变得可以微分：

$\begin{aligned} \min_{b, \bold w, \xi} &\quad \frac 1 2 \bold w^{\mathrm{T}} \bold w + C \sum_{n = 1}^N \xi_n \\ \operatorname{s.t.} &\quad |\bold w^{\mathrm{T}} \bold z_n + b - y_n| \le \epsilon + \xi_n \\ &\quad \xi_n \ge 0 \end{aligned}$

去掉绝对值符号：

$\begin{aligned} \min_{b, \bold w, \xi} &\quad \frac 1 2 \bold w^{\mathrm{T}} \bold w + C \sum_{n = 1}^N (\xi_n^\lor + \xi_n^\land) \\ \operatorname{s.t.} &\quad -\epsilon - \xi_n^\lor \le y_n - \bold w^{\mathrm{T}} \bold z_n - b \le \epsilon + \xi_n^\land \\ &\quad \xi_n^\lor \ge 0, \xi_n^\land \ge 0 \end{aligned}$

两个不同的 $\xi$ 分别表示上界和下界的误差
SVR参数：
- $C$ ：正则项和违反程度的权衡参数
- $\epsilon$ ：管道的宽度
QP： $\tilde d + 1 + 2N$ 个变量， $2 N + 2 N$ 个问题

SVR Dual

对应的对偶拉格朗日乘数 $\alpha_n^\lor, \alpha_n^\land$
$\bold w = \sum_n (\alpha_n^\land - \alpha_n^\lor) \bold z_n$
$\sum_n (\alpha_n^\land - \alpha_n^\lor) = 0$
对条件的互补松弛性，乘积为0
- $\alpha_n^\land (\epsilon + \xi_n^\lor - y_n + \bold w^{\mathrm{T}} \bold z_n + b) = 0$
- $\alpha_n^\lor (\epsilon + \xi_n^\lor + y_n - \bold w^{\mathrm{T}} \bold z_n - b) = 0$
对偶形式：

$\begin{aligned} \min &\quad \frac 1 2 \sum_{n = 1}^N \sum_{m = 1}^N (\alpha_n^\land - \alpha_n^\lor) (\alpha_m^\land - \alpha_m^\lor) k_{n, m} + \sum_{n = 1}^N ( (\epsilon - y_n) \alpha_n^\land + (\epsilon + y_n) \alpha_n^\lor) \\ \operatorname{s.t.} &\quad \sum_{n = 1}^N (\alpha_n^\land - \alpha_n^\lor) = 0 \\ &\quad 0 \le \alpha_n^\land \le C, 0 \le \alpha_n^\lor \le C \end{aligned}$

对于严格在管道内的点 $|\bold w^{\mathrm{T}} \bold z_n + b - y_n| \lt \epsilon$
- $\xi_n^\land = 0, \xi_n^\lor = 0$
- 内项不为0，对偶系数为零，即 $(\alpha_n^\land - \alpha_n^\lor) = 0$
只有在管道外的点才会有非零的 $(\alpha_n^\land - \alpha_n^\lor)$ ——稀疏的对偶系数