coursera机器学习技法笔记(5-6)——将核方法应用于回归

最新推荐文章于 2020-11-22 23:24:21 发布

八月夏凉

最新推荐文章于 2020-11-22 23:24:21 发布

阅读量897

点赞数

分类专栏：笔记文章标签：机器学习 kernel svm svr coursera

本文链接：https://blog.csdn.net/u010366427/article/details/51169612

版权

笔记专栏收录该内容

32 篇文章 2 订阅

订阅专栏

5 Kernel Logistic Regression

5.1 Soft-Margin SVM as Regularize Model

　　本节主要从正则化模型的观点来讲解Soft-SVM。首先看一下Soft-SVM的模型：

m i n w, b, ε 1 2 w T w + C \sum N n = 1 ε n

$min_{w,b,ε}\frac{1}{2} w^T w+C∑_{n=1}^Nε_n$

s . t . \forall y n w T x n + b \leq 1 - ε n

$s.t.∀y_n w^T x_n+b≤1-ε_n$

\forall ε n \geq 0

$∀ε_n≥0$
　　由于

ε $ε$ 代表了每个样本接近超平面的距离，即：

ε n = m a x (1 - y n (w T x n + b), 0)

$ε_n=max(1-y_n (w^T x_n+b),0)$
因此该模型也可以看做是损失函数

∑Nn=1ε $∑_{n=1}^Nε$ 与正则化项

12wTw $\frac{1}{2} w^T w$ 的最小化优化问题，而

C $C$ 则代表了正则化系数，

C $C$ 越大，正则化强度越高。

5.2 SVM versus Logistic Regression

　　本节从损失函数上限的角度来阐述了Soft-SVM和Logistic回归的关系，SVM的损失曲线是过 $(0,1)$ 、 $(1,0)$ 的直线，在 $(1,0)$ 之后是 $y=0$ 的直线，而修正后的logistic回归的损失曲线是 $err=log_2 (1+exp(-ys))$ ，其中， $s=w^T x+b$ 。本部分内容可参考”机器学习基石”11.1节，该节探讨了将回归用于分类的理论基础。
　　可以看到的是，当 $ys$ 趋向于正无穷时，两种损失函数都趋近于0，当 $ys$ 趋于负无穷时，两者都趋向于 $-ys$
　　相比较而言，在损失函数方面，PLA算法是希望直接优化0/1错误函数，SVM通过二次规划来逼近0/1错误，logistic回归则通过梯度下降来进行优化；在算法的质量保证方面，SVM通过最大边际来从理论上保证降低VC维，而logistic回归则利用正则化来限制VC维。它们的缺点都在于其损失函数都只是降低0/1损失函数的上限，而这个上限在 $ys$ 趋向负无穷时与0/1损失相差比较大。

5.3 SVM for Soft Binary Classification

　　由于SVM和对数回归的相似性，因此希望使用核方法使得对数回归能在Z空间内运行。这里先介绍了一个近似的方法，叫probabilistic SVM。即先利用kernel SVM在Z空间得出分数 $w^T x+b$ ，然后把这个分数作为一个新特征用于训练对数回归。

5.4 Kernel Logistic Regression

5.4.1 用加权样本表示最优解
　　先进行一项证明，所有的带二次正则化的线性模型都可以将所需求解的权重 $w$ 表示为样本的加权组合。证明如下：
将最优解 $w^*$ 分解为与样本的加权线性组合平行的向量 $w_{||}$ 以及与之垂直的向量 $w_⊥$ ，则：

w T * x = (w | | + w ⊥) x = w | | x

$w_*^T x=(w_{||}+w_⊥ )x=w_{||} x$
其中，

w⊥ $w_⊥$ 与

x $x$ 垂直，故内积为0。并且由

| w T * w * | = | w T | | w | | + w T ⊥ w ⊥ | > | w T | | w | | |

$|w_*^T w_* |=|w_{||}^T w_{||}+w_⊥^T w_⊥ |>|w_{||}^T w_{||} |$
　　可知，在不改变损失函数的情况下，存在比

w∗ $w_*$ 更好的解

w|| $w_{||}$ ，与题设相悖，故所有线性模型的解都能用样本加权表示。
5.4.2 线性模型的对偶问题以及核函数的运用
　　由此，我们可以令

w∗=∑ni=1βixi $w_*=∑_{i=1}^nβ_i x_i$ ，并将其代入logistic回归的优化目标中：

a r g m a x β (L) = \sum m n = 1 l n (1 + e x p (y n \sum n i = 1 β i z T i z n)) + λ \sum n i = 1 \sum m j = 1 β i β j z T i z j

$argmax_β (L)=∑_{n=1}^mln(1+exp(y_n ∑_{i=1}^nβ_i z_i^T z_n )) +λ∑_{i=1}^n∑_{j=1}^mβ_i β_j z_i^T z_j$
可以看到，原优化问题被转换成了以优化β为目标的对偶问题，并出现了可以使用核函数进行计算的内积计算

zTizj $z_i^T z_j$ 。
　　同样这个模型还有另一种解释，即将核函数

K(xi,xj)=zTizj $K(x_i,x_j)=z_i^T z_j$ 看做是样本，求其线性组合的权重

β $β$ 。(该解释即Andrew NG在coursera中机器学习课程的解释)。

6 Support Vector Regression

6.1 Kernel Ridge Regression

　　本节主要将核方法推广到线性模型中：

L (z) = λ N w T w + 1 N \sum N n = 1 (y n - w T z n) 2

$L(z)=\frac{λ}{N} w^T w+\frac{1}{N} ∑_{n=1}^N(y_n-w^T z_n)^2$
将

w=∑Nn=1βnzn $w=∑_{n=1}^Nβ_n z_n$ 代入该公示，再加上核函数

K(xi,xj)=zTizj $K(x_i,x_j)=z_i^T z_j$ ，并向量化，使之成为对偶问题：

L (β) = λ N β T K β + 1 N | Y - β T K | 2

$L(β)=\frac{λ}{N} β^T Kβ+\frac{1}{N} |Y-β^T K|^2$
对

β $β$ 求导之后可以求解析解或用其他方法求解：

\nabla L (β) = 2 N K T ((λ I + K) β - Y)

$∇L(β)=\frac{2}{N} K^T ((λI+K)β-Y)$

6.2 Support Vector Regression Primal

　　使用了上节的核方法来进行回归后发现所使用到的”支持向量”非常多，这是因为求解 $β$ 的时候得到的解不是稀疏解。而得到非稀疏解所导致的问题是用 $β$ 来表达 $w$ 时非常复杂，不利于新来样本的预测。因此希望通过修改损失函数达到控制支持向量的目的。
　　将原目标转变为以下目标：

L (z) = 1 2 w T w + C \sum N n = 1 m a x (0, | y n - w T x n - b | - ϵ)

$L(z)=\frac{1}{2} w^T w+C∑_{n=1}^Nmax(0,|y_n-w^T x_n-b|-ϵ)$
其中，

ϵ $ϵ$ 为支持向量到超平面的距离。也就是说，当点与超平面的距离小于

ϵ $ϵ$ 时，不产生损失，而超过之后产生线性损失。这与原来的线性回归的区别在于线性回归更受异常点影响。并且可以注意到的是在

ϵ $ϵ$ 距离以内的点最后都不会在

w $w$ 的加权中出现。
　　模仿SVM的求解方法，设置距离损失度量

δ $δ$ ：

L (z) = 1 2 w T w + C \sum N n = 1 δ n

$L(z)=\frac{1}{2} w^T w+C∑_{n=1}^Nδ_n$

| y n - w T x n - b | < ϵ + δ n

$|y_n-w^T x_n-b|<ϵ+δ_n$
然后令

δn=δ∧n+δ∨n $δ_n=δ_n^∧+δ_n^∨$ ，再把绝对值展开：

L (z) = 1 2 w T w + C \sum N n = 1 (δ \land n + δ \lor n)

$L(z)=\frac{1}{2} w^T w+C∑_{n=1}^N(δ_n^∧+δ_n^∨)$

- ϵ - δ \lor n < y n - w T x n - b < ϵ + δ \land n

$-ϵ-δ_n^∨<y_n-w^T x_n-b<ϵ+δ_n^∧$

δ \land n > 0, δ \lor n > 0

$δ_n^∧>0,δ_n^∨>0$

6.3 Support Vector Regression

　　接上节，加入拉格朗日乘子，可以将以上目标转换为对偶问题，流程相同，以下给出部分结果：

w = \sum N n = 1 (α \land n - α \lor n) z n

$w=∑_{n=1}^N( α_n^∧-α_n^∨)z_n$

\sum N n = 1 (α \land n - α \lor n) = 0

$∑_{n=1}^N( α_n^∧-α_n^∨)=0$

α \land n (ϵ + δ \land n - y n + w T x n + b) = 0

$α_n^∧ (ϵ+δ_n^∧-y_n+w^T x_n+b)=0$

α \lor n (ϵ + δ \lor n + y n - w T x n - b) = 0

$α_n^∨ (ϵ+δ_n^∨+y_n-w^T x_n-b)=0$
并且最后的带核函数的对偶问题是：

m i n 1 2 \sum N n = 1 \sum N m = 1 (α \land n - α \lor n) (α \land m - α \lor m) k n, m + \sum N n = 1 ((ϵ - y n) α \land n + (ϵ + y n) α \lor n)

$min\frac{1}{2} ∑_{n=1}^N∑_{m=1}^N(α_n^∧-α_n^∨)(α_m^∧-α_m^∨)k_{n,m} +∑_{n=1}^N((ϵ-y_n ) α_n^∧+(ϵ+y_n ) α_n^∨)$

s . t . \sum N n = 1 (α \land n - α \lor n) = 0

$s.t.∑_{n=1}^N( α_n^∧-α_n^∨)=0$

0 \leq α \land n \leq C, 0 \leq α \lor n \leq C

$0≤α_n^∧≤C,0≤α_n^∨≤C$
由以上推导可知，当

|yn−wTxn−b|<ϵ $|y_n-w^T x_n-b|<ϵ$ 时，

δ∧n=0,δ∨n=0 $δ_n^∧=0,δ_n^∨=0$ ，故而

α∨n=0,α∧n=0 $α_n^∨=0,α_n^∧=0$ ，因此

α∧n−α∨n=0 $α_n^∧-α_n^∨=0$ ，该点失去对

w <script type="math/tex" id="MathJax-Element-2972">w</script>的贡献。

6.4 Summery of Kernel Models

　　本节对此前(包括机器学习基石)所接触到的线性模型都做了一次小结：
　　(1)无核
　　PLA/Pocket：使用0/1损失函数，并用特殊方法求解。
　　Linear SVR：使用TUBE损失函数，并用二次规划求解。
　　Soft-SVM：使用SVM损失函数，并用二次规划求解。
　　Linear regression：使用二次损失函数，并求解析解。
　　Logistic regression：使用对数损失函数，并用梯度下降/随机梯度下降求解。
　　相比较而言，前面两个不常用，因为效果差。
　　(2)有核
　　Kernel linear regression：线性回归加核函数，可求解析解。
　　Kernel logistic regression：由logistic regression加核函数而来，用二次规划求解。
　　Soft-SVM对偶问题：由SVM加核函数求对偶问题而来，用二次规划求解。
　　Kernel Linear SVR：由Linear加核函数求对偶问题而来，用二次规划求解。
　　Probabilistic SVM：先运行SVM再放入logistic回归中。
　　相比较而言，前面两者不经常用，因为加入核函数后导致所有样本均对最后的w有贡献，使得预测新样本代价太大，因而应转换为对偶问题求解。

八月夏凉

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
coursera机器学习技法笔记(5-6)——将核方法应用于回归

5 Kernel Logistic Regression5.1 Soft-Margin SVM as Regularize Model　　本节主要从正则化模型的观点来讲解Soft-SVM。首先看一下Soft-SVM的模型： minw,b,ε12wTw+C∑Nn=1εnmin_{w,b,ε}\frac{1}{2} w^T w+C∑_{n=1}^Nε_n s.t.∀ynwTxn+b≤1−εns.t.∀
复制链接

扫一扫