斯坦福公开课Machine Learning笔记(五)--Support Vector Machine

最新推荐文章于 2024-10-15 21:19:38 发布

beichao001

最新推荐文章于 2024-10-15 21:19:38 发布

阅读量300

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/beichao001/article/details/52402686

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

斯坦福公开课Machine Learning笔记(五)–Support Vector Machine

这系列笔记其实已经手写好, 现在一次性发上来, 主要是怕丢. 内容以Andrew Ng的讲义为主,主要以公式推导与理解为主,引入和介绍省略.对于最后的Reinforcement Learning部分, 由于没有讲义以及对其实在不熟悉, 就没有笔记了(主要还是因为没有讲义).

1.函数间隔和几何间隔

在二维空间中的数据点,我们可以用一条线来把数据分成两类.但这可能并不是最好的分隔线,因为新的数据可能就在分隔线附近,这样会对预测造成误差.

而每个数据点到分隔线都有一个距离,我们可以通过这个距离来找到最佳的分隔线.
函数间隔:
$\hat{\gamma}^{(i)}=y^{(i)}(w^Tx+b), y^{(i)}\in \{1,-1\}$

$\hat{\gamma}=\min_{i=1,2,...,m}\hat{\gamma}^{(i)}$

但是当w和b成倍数增长时,函数间隔也会变大,但分隔线却没变.而几何间隔就不会.
通过函数间隔计算某个点的几何间隔:
A点在分隔线外,B点在分隔线上,过A点做垂线经过B点.
AB的距离为 $\hat{\gamma}^{(i)}$ ,A点的x为 $x^{(i)}$ ,那么B点的x为: $x^{(i)}-\hat{\gamma}^{(i)}\frac{w}{||w||}$

$\because$ B点在分隔线 $w^Tx+b=0$ 上

$\therefore w^T(x^{(i)}-\hat{\gamma}^{(i)}\frac{w}{||w||})+b=0$

$\therefore \hat{\gamma}^{(i)}=\frac{w^Tx^{(i)}+b}{||w||}=(\frac{w}{||w||})^Tx^{(i)}+\frac{b}{||w||}$

$\therefore \hat{\gamma}^{(i)}=y^{(i)}((\frac{w}{||w||}))^T+\frac{b}{||w||})$

$\gamma=\min_{i=1,2,...,m}{\gamma^{(i)}}$

可以看到,当 $||w||=1$ 时,函数间隔就等于几何间隔.而无论如何取w和b,都不会影响距离.
那如何通过间隔来找到最佳的分隔线呢?

空间中的点分隔开后,点投影到线上,投影肯定是越分散越容易让人分辨,而不是挤在一块.也就是投影的点的方差最大化。
还有另外一种理解。当要预测新的x时，如果x点在分割线附近，就很容易产生误差。那么，我们尽量把空间内的数据分隔开，即尽量让所有的点都远离分割线。也就是最大化所有点到分割线的距离。

我们要最大化 $\gamma$ :

$\max_{\gamma,w,b} \gamma$

$y^{(i)}(w^Tx^{(i)}+b)\geq \gamma, i=1,2,...,m$

$||w||=1$

但是 $||w||=1$ 会导致非凸集，去掉这个约束：

$\max_{\gamma,w,b} \frac{\gamma}{||w||}$

$y^{(i)}(w^Tx^{(i)}+b)\geq \gamma, i=1,2,...,m$

$||w||=1$ 是保证函数间隔等于几何间隔， $\gamma=\frac{\hat{\gamma}}{||w||}$

但 $\frac{\hat{\gamma}}{||w||}$ 不是凸函数，是双曲线，所以通过缩放增加约束： $\hat{\gamma}=1$

$\therefore \frac{\hat{\gamma}}{||w||}=\frac{1}{||w||}$

$\therefore \min{\frac{1}{2}||w||^2}$

$y^{(i)}(w^Tx^{(i)}+b)\geq1, i=1,2,...,m$

$\therefore$ 我们是要最小化 $||w||^2$ , 加上2次是为了变成2次函数,这是典型的凸函数.

2. Lagrange duality

这里先介绍一下拉格朗日对偶问题.
当我们碰到最优化问题:

$\min_w{f(w)}$

$h_i(w)=0, i=1,2,...,l$

然后使用拉格朗日乘数法:

L (w, β) = f (w) + \sum i = 1 l β i h i (w)

$L(w,\beta)=f(w)+\sum_{i=1}^l{\beta_ih_i(w)}$

\partial L ( w , β ) \partial w i = 0

$\frac{\partial L(w,\beta)}{\partial w_i}=0$

\partial L ( w , β ) \partial β i = 0

$\frac{\partial L(w,\beta)}{\partial \beta_i}=0$
解出

w $w$ 和

β $\beta$ 得到极值.
现在这里多了一个不等式的约束条件:

minwf(w) $\min_w{f(w)}$

$g_i(w)\leq0 ,i=1,2,...,k$

$h_i(w)=0, i=1,2,...,l$

还是使用拉格朗日乘数法,先定义:

L (w, α, β) = f (w) + \sum i = 1 k α i g i (w) + \sum i = 1 l β i h i (w)

$L(w,\alpha,\beta)=f(w)+\sum_{i=1}^k{\alpha_ig_i(w)}+\sum_{i=1}^l{\beta_ih_i(w)}$

θ P (w) = max α, β : α i \geq 0 L (w, α, β)

$\theta_P(w)=\max_{\alpha,\beta:\alpha_i\geq0}{L(w,\alpha,\beta)}$
当不满足约束条件,即

gi(w)>0,hi(w)≠0 $g_i(w)>0,h_i(w)\not= 0$ , 只要增加

αi和βi,θP(w)→∞ $\alpha_i和\beta_i,\theta_P(w)\to \infty$ .而当满足条件时,

θP(w)=f(w) $\theta_P(w)=f(w)$

$\therefore \theta_P(w)=\begin{cases} f(w) & g_i(w)\leq0,h_j(w)=0 \\ \infty & otherwise\end{cases}$

$\therefore \min_{w}{\theta_P(w)=\min_{w}\max_{\alpha,\beta:\alpha_i\geq0}{L(w,\alpha,\beta)}}$

转化为对偶优化问题:

$\theta_D(\alpha,\beta)=\min_w{L(w,\alpha,\beta)}$

$\max_{\alpha,\beta:\alpha_i\geq0}{\theta_D(\alpha,\beta)}=\max_{\alpha,\beta:\alpha_i\geq0}{\min_w{L(w,\alpha,\beta)}}$

且 $d^*=\max_{\alpha,\beta:\alpha_i\geq0}{\min_w{L(w,\alpha,\beta)}}\leq\min_{w}\max_{\alpha,\beta:\alpha_i\geq0}{L(w,\alpha,\beta)}=P^*$

当在特定条件下 $d^*=P^*$ :

$f和g_i$ 为凸函数, $h_i$ 为仿射函数,类似于 $h_i(w)=\alpha_i^Tw+b$ , $g_i(w)\leq0$ 绝对成立,即 $\exists w 对\forall_i \space g_i(w)\leq0$

满足上面假设后就一定存在 $w^*,\alpha^*,\beta^*$ 满足 $d^*=P^*$ .

同时还满足一下KKT条件:

\partial L ( w * , α * , β * ) \partial w i = 0, i = 1, 2, . . ., n

$\frac{\partial L(w^*,\alpha^*,\beta^*)}{\partial w_i}=0 , i=1,2,...,n$

\partial L ( w * , α * , β * ) \partial β i = 0, i = 1, 2, . . ., n

$\frac{\partial L(w^*,\alpha^*,\beta^*)}{\partial \beta_i}=0 , i=1,2,...,n$

α * i g i (w *) = 0, i = 1, 2, . . ., k (K K T 互 补 条 件)

$\alpha_i^*g_i(w^*)=0,i=1,2,...,k(KKT互补条件)$

g i (w *) \leq 0, i = 1, 2, . . ., k

$g_i(w^*)\leq0,i=1,2,...,k$

α * i \geq 0, i = 1, 2, . . ., k

$\alpha_i^*\geq0,i=1,2,...,k$
经常有:

α∗i≠0⟺gi(w∗)=0 $\alpha_i^*\not=0 \iff g_i(w^*)=0$
而当

gi(w)∗=0 $g_i(w)^*=0$ ,则成为active constraint

回到前面:

$\min{\frac{1}{2}||w||^2}$

$y^{(i)}(w^Tx{(i)}+b)\geq1,i=1,2,...,m$

改写一下不等式:

$g_i(w)=-y^{(i)}(w^Tx{(i)}+b)+1\leq0$

当 $g_i(w)=0$ 时,函数间隔为1,即:
只有那些靠近分隔线的点的函数间隔为1,其他的点都大于1: $\alpha_i=0,g_i(w)\leq0$ .这些函数间隔为1的点称为支持向量,只有他们会影响到分隔线(超平面).
同样适用拉格朗日乘数法:

L (w, b, α) = 1 2 | | w | | 2 - \sum i = 1 m α i [y (i) (w T x (i) + b) - 1]

$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^m{\alpha_i[y^{(i)}(w^Tx^{(i)}+b)-1]}$

对于对偶问题:
$\theta_D(\alpha,\beta)=\min_{w}{L(w,\alpha,\beta)}$

$\because \nabla_wL(w,\alpha,\beta)=w-\sum_{i=1}^m\alpha_iy^{(i)x^{(i)}}=0$

$\therefore w=\sum_{i=1}^m{\alpha_iy^{(i)}x^{(i)}}$

$\because \nabla_bL(w,b,\alpha)=-\sum_{i=1}^m{\alpha_iy^{(i)}}=0$

$\therefore \sum_{i=1}^m{\alpha_iy^{(i)}}=0$

把 $w=\sum_{i=1}^m{\alpha_iy^{(i)}x^{(i)}}$ 和 $\sum_{i=1}^m{\alpha_iy^{(i)}}=0$ 带入 $L(w,b,\alpha)$

$\therefore L(w,b,\alpha)=\sum^{i=1}^m{\alpha_i}-\frac{1}{2}\sum_{i=1}^m{\sum_{j=1}^m{y^{(i)}y^{(j)}\alpha_i\alpha_j<x_i,x_j>}}$

$\because \max_{\alpha,\beta:\alpha_i\geq0}{\theta_D(\alpha,\beta)=\max_{\alpha,\beta:\alpha_i \geq0}{\min{L(w,\alpha,\beta)}}}$

$\therefore \max_\alpha{W(\alpha)=\sum_{i=1}^m{\alpha_i-\frac{1}{2}\sum_{i=1}^m{\sum_{j=1}^m{y^{(i)}y^{(j)}\alpha_i\alpha_j<x_i,x_j>}}}}$

$\alpha_i\geq0,i=1,2,...,m$

$\sum_{i=1}^m{\alpha_iy^{(i)}}=0$

通过KKT条件来求解,用对偶问题代替原始问题.
而 $b=\frac{\max_{i:y^{(i)}=-1}w^{*T}x^{(i)}+\min_{i:y^{(i)}=1}w^{*T}x^{(i)}}{2}$
也就是当确定w后,平移超平面,平移到最佳位置即可.
当求出w和b后,可以对新数据点进行分类了.
$\begin{align} w^Tx+b&=(\sum_{i=1}^m{\alpha_iy^{(i)}x^{(i)}})^Tx+b\\ &=\sum_{i=1}^m{\alpha_iy^{(i)}<x^{(i)},x>+b}\\ \end{align}$
如果每次把训练集遍历一边会很慢,但其实大部分 $\alpha_i=0$ ,只有少数 $\alpha_i\not=0$ 的支持向量.后面还会介绍kernel来计算x的内积.

Kernels

对于kernel的个人理解是:当数据在低维线性不可分时,把数据映射到更高维的空间,让其线性可分.
定义kernel函数:
$K(x,z)=\phi(x)^T\phi(z)$ 代替 <ϕ(x),ϕ(z)> <script type="math/tex" id="MathJax-Element-3017"><\phi(x),\phi(z)></script>

Ng举了个例子:
$x,z\in R^n$
$\begin{align} K(x,z)&=(x^Tz)^2\ &=(\sum_{i=1}^n{x_iz_i})(\sum_{j=1}^n{x_jz_j})\ &=\sum_{i=1}^n{\sum_{j=1}^n{x_ix_jz_iz_i}}\ &=\sum_{i,j=1}^n{(x_ix_j)(z_iz_j)}\ \end{align}$
假设 $n=3$
$\phi(x)=\begin{bmatrix}x_1x_1\\\vdots\\x_3x_3\end{bmatrix}$
这样直接计算 $\phi(x)^T\phi(z)$ 的复杂度为 $O(n^2)$ ,而计算Kernel函数的复杂度为 $O(n)$ .
推广到加上常数项:
$K(x,z)=(x^Tz+c)^2=\sum_{i,j=1}^n{(x_ix_j)(z_iz_j)}+\sum_{i=1}^n{(\sqrt{2c}x_i)(\sqrt{2c}z_i)}+c^2$
继续推广:
$K(x,z)=(x^Tz+c)^d\to\begin{pmatrix}n+d\\d\end{pmatrix}$ 特征空间
但是复杂度从 $O(n^d)\to O(n)$
我们上面找到了 $\phi$ ,但是我们并不在意 $\phi$ .

Gaussian kernel

$K(x,z)=exp(\frac{||x-z||^2}{2\sigma^2})$ 其中 $\sigma$ 的取值并不影响.这个函数是个无限维的映射.
那如何确定某个函数是否可以作为kernel函数呢?
如果要找到 $\phi$ 来确定kernel,但是 $\phi$ 并不好找.
我们先定义一个kernel矩阵:
$K_{ij}=K(x^{(i),x^{(j)}})$
如果 $k_{ij}$ 是kernel函数,可以证明 $k_{ij}$ 是个半正定矩阵.维基百科对半正定矩阵的定义
证:

z T k z = \sum i \sum j z i k i j z j = \sum i \sum j z i ϕ (x (i)) T ϕ (x (i)) z j = \sum i \sum j z i \sum k ϕ k (x (i)) ϕ k (x (i)) z j = \sum k \sum i \sum j ϕ k (x (i)) ϕ k (x (i)) z j = \sum k (\sum i z i ϕ k (x (i))) 2 \geq 0

$\begin{align} z^Tkz&=\sum_i{\sum_j{z_ik_{ij}z_j}}\\ &=\sum_i{\sum_j{z_i\phi(x^{(i)})^T\phi(x^{(i)})}z_j}\\ &=\sum_i{\sum_j{z_i\sum_{k}{\phi_k(x^{(i)})\phi_k(x^{(i)})z_j}}}\\ &=\sum_k{\sum_i{\sum_j{\phi_k(x^{(i)})\phi_k(x^{(i)})z_j}}}\\ &=\sum_k{(\sum_i{z_i\phi_k(x^{(i)})})^2}\geq0\\ \end{align}$
这里证明了只要

K $K$ 是个kernel函数,那么k矩阵一定是半正定矩阵,通过Mercer’s theorem,其实这是个充要条件.

Regularization and non-separable case

当数据集中异常点时,我们不可能为了这些异常点而改变超平面.那么如何忽略这些点呢?
我们可以加入优化,正则化.

$\min_{\gamma,w,b} \space \frac{1}{2}||w||^2+c\sum_{i=1}^m{\xi_i}$

$y^{(i)}(w^Tx^{(i)}+b)\geq1-\xi_i$

$\xi_i\geq0,i=1,2,...,m$

加入正则的理解其实就是让某些点的函数间隔可以小于1.

∴ L (w, b, ξ, α, γ) = 1 2 w T w + c \sum i = 1 m ξ i - \sum i = 1 m α i [y (i) (x T w + b) - 1 + ξ i] - \sum i = 1 m γ i ξ i

$\therefore L(w,b,\xi,\alpha,\gamma)=\frac{1}{2}w^Tw+c\sum_{i=1}^m{\xi_i}-\sum_{i=1}^m{\alpha_i[y^{(i)}(x^Tw+b)-1+\xi_i]-\sum_{i=1}^m{\gamma_i\xi_i}}$

那么,其对偶问题:
$\max_{\alpha}{W(\alpha)=\sum_{i=1}^m{\alpha_i}-\frac{1}{2}\sum_{i,j=1}^m{y^{(i)}y^{(j)}\alpha_i\alpha_j<x^{(i)},x^{(j)}>}}$

$0\leq\alpha_i\leq c$

$\sum_{i=1}^m{\alpha_iy^{(i)}}=0$

和之前相比, $\alpha_i 的取值变为了0\leq\alpha_i\leq c$

当 $\alpha_i=0时, \implies y^{(i)}(w^Tx^{(i)}+b)\geq1$

当 $\alpha_i=c时, \implies y^{(i)}(w^Tx^{(i)}+b)\leq1$

当 $0< \alpha_i < c 时, \implies y^{(i)}(w^Tx^{(i)}+b)=1$ .

The SMO algorithm

在求解最大或者最小值问题时,经常会使用坐标上升(下降)法.Coordinate ascent(descent):
Loop until convergence{
for i = 1 to m{
$\alpha_i:=\arg\max_{\hat{\alpha_i}}{W(\alpha_1,...,\alpha_i,...,\alpha_m)}$
}
}
不停迭代,每次只改变某一维度来最优化.
把几个最优化算法比较一下:

牛顿法:收敛快,但是每次计算代价大
坐标上升(下降):收敛慢,计算代价小
梯度下降:不适合高纬度.

而对于如何求解对偶问题,如果要使用坐标上升法,只改变一个 $\alpha$ 值,就无法保证在 $\sum_{i=1}^m{\alpha_iy^{(i)}}=0$ ,在固定其他 $\alpha$ 时, $\alpha_1$ 也是固定的.
所以我们可以改变2个变量: