林轩田之机器学习课程笔记（ embedding numerous feature之 kernel logistic regression）（32之21）

最新推荐文章于 2023-10-08 10:45:26 发布

cqychen

最新推荐文章于 2023-10-08 10:45:26 发布

阅读量377

点赞数

分类专栏：机器学习笔记文章标签：机器学习 kernel 逻辑回归

本文链接：https://blog.csdn.net/cqy_chen/article/details/78941293

版权

机器学习笔记专栏收录该内容

74 篇文章 1 订阅

订阅专栏

概要
SVM模型用于正则化
SVM和逻辑回归
SVM进行软间隔二分类问题
kernel版本的逻辑回归

欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen
题目可能不全，因为有字数限制，不好意思，可以参考：
https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/

概要

上节讲到了soft-margin的SVM，其目的还是为了防止过拟合。
本节主要讲解将kernel的技巧和逻辑回归结合起来。

SVM模型用于正则化

首先来看看前期学习到的hard-margin和soft-margin问题：
这里写图片描述
发现其实做soft-margin的SVM和原始的SVM差异并不大。上节课也提到了这个，回顾下soft-margin的原始公式：

min 1 2 w T w + C \sum n = 1 N ξ n s . t : y n (w T z n + b) \geq 1 - ξ n ξ n \geq 0

$\min \frac{1}{2}w^Tw+C\sum_{n=1}^{N}\xi_n\\ s.t:y_n(w^Tz_n+b)\geq 1-\xi_n\\ \xi_n\geq 0$
我们知道在上节中：
1）当点没有违反条件的时候，

ξn=0 $\xi_n=0$
2)当点违反条件的时候，

ξn=1−yn(wTnzn+b)≥0 $\xi_n=1-y_n(w^Tnz_n+b)\geq 0$
所以这两个式子可以合并：

ξn=max(0,1−yn(wTnzn+b)) $\xi_n=\max(0,1-y_n(w^Tnz_n+b))$
带入原始公式：

min 1 2 w T w + C \sum n = 1 N max (0, 1 - y n (w T n z n + b))

$\min \frac{1}{2}w^Tw+C\sum_{n=1}^{N}\max(0,1-y_n(w^Tnz_n+b))$
这个是啥？不就是像正则化的东西么？其实思想都是一样的。
我们来对比下，在采用了ridge的方式的正则化如下:

min (λ N w T w + 1 N \sum n = 1 N e r r)

$\min (\frac{\lambda}{N}w^Tw+\frac{1}{N}\sum_{n=1}^{N}err)$
所以我们可以将

C∑Nn=1max(0,1−yn(wTnzn+b) $C\sum_{n=1}^{N}\max(0,1-y_n(w^Tnz_n+b)$ 看做是一个err不就是一样的形式么？
但是SVM有两个原因是不能像传统的正则化那样求解的。
1）如果直接这样写，这不是一个QP问题，不好求解
2）max这个函数在一些点上是不可导的，导致求解麻烦。
我们来对比下SVM和正则化的情况

Tables	最小化	常数项
常数项的正则化	$E_{in}$	$w^Tw\leq C$
hard-margin SVM	$w^Tw$	$E_{in}=0$
ridge正则化	$E_{in}+\frac{\lambda}{N}w^Tw$
soft-margin SVM	$\frac{1}{2}w^Tw+CN\hat{err}$

所以从这个角度看，SVM就是一个正则化表达式，当C比较大的时候，对应正则化项的 $\lambda$ 比较小，允许更大的错误点，反之亦然。

SVM和逻辑回归

上面中我们将SVM进行了变形，在机器学习基石中，我们学习了PLA，线性回归，逻辑回归的err函数。首先令分数score是： $s=w^Tz_n+b$

Tables	PLA	线性回归	逻辑回归	SVM
$h(x)$	$sign(s)$	$h(s)$	$\theta(s)$
损失函数	$[sign(ys)\neq 1]$	$(ys-1)^2$	$ln(1+e^{-ys})$	$\max(0,1-ys)$

所以我们对比PLA，逻辑回归和SVM
这里写图片描述
当SVM和逻辑回归两边趋于无穷的时候：

所以soft-margin的SVM和ridge的逻辑回归没什么差别。

那么既然soft-margin的SVM和L2的逻辑回归没什么两样，那么能不能直接使用SVM的结果拿去逻辑回归中求解呢？或者使用逻辑回归的结果拿去SVM中求解呢？

SVM进行软间隔二分类问题

上节中我们知道soft-margin的SVM和L2的逻辑回归没什么两样，那我们可以直接使用SVM的结果拿到逻辑回归中么？
假设已经得到SVM结果： $b_{svm},w_{svm}$
1）直接带入逻辑回归， $g(x)=\theta(w_{svm}^Tx+b)$ ，这样做呢效果还不错，但是还不是逻辑回归的最优
2）将逻辑回归的初始值设定为 $b_{svm},w_{svm}$ ，这样就会带来一个问题，然后进行优化，这样就会带来一个问题，因SVM是kernel的，而逻辑回归用不了啊。
能不能融合这两个方法？可不可以将SVM得到的结果再拿去做逻辑回归呢？
这样逻辑回归就成了：

g (x) = θ (A (w T s v m ϕ (x) + b) + B)

$g(x)=\theta(A(w_{svm}^T\phi(x)+b)+B)$
逻辑回归的损失函数就变成了：

min A, B = 1 N \sum n = 1 N l o g (1 + e - y n (A \cdot (w T s v m ϕ (x) + b) + B))

$\min_{A,B}=\frac{1}{N}\sum_{n=1}^{N}log(1+e^{-y_n(A\cdot (w_{svm}^T\phi(x)+b)+B)})$
可以这么去理解，先将点通过kernel的soft-margin的SVM进行求解，然后根据结果算出分数，最后根据这些分数重新放入LR中。

这样的套路在机器学习中很是常见，比如GBDT产生特征，拿给LR去使用，FM产生特征给GDBT使用等

这里可以理解为SVM经过运算重新产生特征，然后给LR。
那么我们在做kernel的时候也是通过了SVM，有没有办法直接将kernel使用在逻辑回归呢？下节讲解。

kernel版本的逻辑回归

我们知道kernel的本质是绕过转换，直接在原始空间中求解，要使用kernel，我们得到的w必须是资料点的线性组合才行，不然你拿w去算分数怎么搞成kernel的形式呢。
所以 $w=\sum_{n=1}^{N}\alpha_nz_n$ 是能够转换成kernel的关键，这样分数就可以得到：

s = \sum n = 1 N α n z T n z = \sum n = 1 N α n k (z n, z)

$s=\sum_{n=1}^{N}\alpha_nz_n^Tz=\sum_{n=1}^{N}\alpha_nk(z_n,z)$
同时我们知道，PLA/逻辑回归都是这样的形式：
这里写图片描述

这里同时说明下，如果是带有L2正则化的线性模型，其解中的w都应该是资料点的线性组合。

min w = λ N w T w + 1 N \sum n = 1 N e r r (y n, w T z n)

$\min_{w}=\frac{\lambda}{N}w^Tw+\frac{1}{N}\sum_{n=1}^{N}err(y_n,w^Tz_n)$
总有：

w=∑Nn=1αnzn $w=\sum_{n=1}^{N}\alpha_nz_n$
这里简单的证明下。
将w得到的最佳解：

w∗=w||+w⊥ $w_{*}=w_{||}+w_{\perp}$ 两个部分。

w|| $w_{||}$ 表示在资料点展开的平面中，

w⊥ $w_{\perp}$ 表示与资料点垂直的平面中。根据结论

w⊥ $w_{\perp}$ =0才对。
假设

w⊥≠0 $w_{\perp}\neq 0$
则有对比

err(yn,wTzn) $err(y_n,w^Tz_n)$ 无论

w⊥ $w_{\perp}$ 是否等于0都没有关系，

e r r (y n, (w | | + w ⊥) z n) = e r r (y n, (w | |) z n)

$err(y_n,(w_{||}+w_{\perp})z_n)=err(y_n,(w_{||})z_n)$
但是

(w | | + w ⊥) T (w | | + w ⊥) > (w | |) T (w | |)

$(w_{||}+w_{\perp})^T(w_{||}+w_{\perp})>(w_{||})^T(w_{||})$
所以如果存在

w⊥≠0 $w_{\perp}\neq 0$ 必然导致结果不是最小的，这和上面的假设矛盾。
所以如果是L2的线性模型，必有： $w=\sum_{n=1}^{N}\alpha_nz_n$

对于逻辑回归模型：

min w = λ N w T w + 1 N \sum n = 1 N l o g (1 + e - y n w T z n)

$\min_{w}=\frac{\lambda}{N}w^Tw+\frac{1}{N}\sum_{n=1}^{N}log(1+e^{-y_nw^Tz_n})$
直接假设

w=∑Nn=1βnzn $w=\sum_{n=1}^{N}\beta_nz_n$ 带入同时带入kernel：

min w = λ N \sum n = 1 N \sum m = 1 N β n β m k (x n, x m) + 1 N \sum n = 1 N l o g (1 + e - y n \sum N m = 1 β m k (x n, x m))

$\min_{w}=\frac{\lambda}{N}\sum_{n=1}^{N}\sum_{m=1}^{N}\beta_n\beta_mk(x_n,x_m)+ \frac{1}{N}\sum_{n=1}^{N}log(1+e^{-y_n\sum_{m=1}^{N}\beta_m k(x_n,x_m)})$
这个结果仔细观察

yn∑Nm=1βmk(xn,xm) $y_n\sum_{m=1}^{N}\beta_m k(x_n,x_m)$ 可以看做是关于

β $\beta$ 的一个线性组合.同时前面的项目，会得到：

βTkβ $\beta^Tk\beta$ 这样一个正则化。

所以这个kernel版本的逻辑回归可以看做核函数的转换的逻辑回归。

kernel逻辑回归得到的结果和kernel的SVM结果形式可能很不一样，因为kernel逻辑回归得到的 $\beta$ 大部分不是0，而SVM则大部分 $\alpha$ 都是0，所以从这个角度看kernel的逻辑回归版本拿去预测会消费更多的时间。

欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen

cqychen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
林轩田之机器学习课程笔记（ embedding numerous feature之 kernel logistic regression）（32之21）

概要SVM模型用于正则化SVM和逻辑回归SVM进行软间隔二分类问题kernel版本的逻辑回归欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 题目可能不全，因为有字数限制，不好意思，可以参考： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/概要上节讲到了soft-margin的SVM，其目的还是
复制链接

扫一扫