CS229 Lecture 7

Light_blue_love

于 2019-09-03 15:07:04 发布

阅读量214

点赞数

分类专栏： CS229

本文链接：https://blog.csdn.net/Light_blue_love/article/details/100409839

版权

CS229 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

CS229 Lecture 7

课程要点：

最有边界分类
原始/对偶问题
原始/对偶优化问题(KKT)
支持向量机对偶问题
核方法

支持向量机的函数 $h_{w,b}(x)=g(w^Tx+b)$ , $g(z)=\begin{cases}1 & if \,\,z\ge\,\,0\\-1&otherwise\end{cases}$ , $y\in\{-1,1\}$ 。在支持向量机中关于函数价格的定义为 $\hat\gamma^{(i)}=y^{(i)}(w^Tx^{(i)}+b)$ 。

支持向量机关于几何间隔的定义为： $\gamma^{(i)}=y^{(i)}(\frac{w^T}{||w||}x+\frac{b}{||w||})$ ,对于一批样本几何间隔的定义为： $\gamma=min\,\,\gamma^{(i)}$ 。根据几何间隔的定义可知，对 $w, b$ 按照任意比例进行放缩都不会影响分隔的超平面，以及间隔大小。

最大化几何间隔

方法1:
$\mathop {\max }\limits_{w,b}\,\,\gamma\\ s.t \,\,\,\,y^{(i)}(w^Tx^{(i)}+b)\ge\gamma\,\,\,\,i=1,\cdots,m\\ ||w||=1$

由于 $∣ ∣ w ∣ ∣ = 1$ 属于非凸优化问题，难以解出。

方法2:

$\mathop {\max }\limits_{\gamma,w,b}\frac{\hat\gamma}{||w||}\\ s.t \,\,\,\,y^{(i)}(w^Tx^{(i)}+b)\ge\hat\gamma$

上式虽然摆脱了 $∣ ∣ w ∣ ∣ = 1$ ,然而 $\frac{\hat\gamma}{||w||}$ 依旧是一个非凸优化问题。

方法3:

前面说过可以对 $w, b$ 任意缩放而不改变其几何间隔。那么现在令 $\hat\gamma=1$ ,因此有 $\mathop {\min }\limits_i y^{(i)}(w^Tx^{(i)}+b)=1$ ，对于方法2的变形为：

$\mathop {\min }\limits_{w,b}||w||^{2}\\ s.t\,\,\,\,y^{(i)}(w^Tx^{(i)}+b)\ge1$

其中 $\mathop {\min }\limits_{w,b}||w||^{2}$ ,相当于 $\mathop {\max }\limits_{w,b}\frac{1}{||w||}$

这样的优化问题没有局部最有解。

在这里插入图片描述

对于这种有约束最优化问题，就如上图所示，可行域被各种限制屏蔽掉，最有解只能在剩余的里面找。在还哪有被排除的点收敛到全局最优。

原始问题于对偶问题

原始问题：

$\mathop {\min }\limits_{w}\,\,f(w)\\ s.t \,\,h_{i}(w)=0\,\,\,\,i=1\cdots m$

将约束条件向量化表示的话 $h(w)=\begin{bmatrix}h_{1}(w)\\h_2(w)\\\vdots\\h_m(w)\end{bmatrix}=\vec 0$

将其转换为拉格朗日函数为： $L(w,\beta)=f(w)+\sum_{i=1}^{m}\beta_i h_i(w)$ ,其中 $\beta_i$ 被称为拉格朗日乘子。

求解拉格朗日函数的方法为：

$\frac{\partial L}{\partial w}=0$ 且 $\frac{\partial L}{\partial \beta}=0$

如果说 $w^*$ 是这个拉格朗日函数的最优解的话,那么必然存在 $\beta*$ 使得 $\frac{\partial L(w^*,\beta*)}{\partial w}=0,\frac{\partial L(w^*,\beta*)}{\partial \beta}=0$

这里将这种受限最优化问题泛化为包含不等式约束条件；

原始问题为：

$\mathop {\min }\limits_{w}\,\,f(w)\\ s.t \,\,g_{i}(w)=0\,\,\,\,i=1\cdots k\\ h_{i}(w)=0\,\,\,\,i=1\cdots l$

为了求解该问题，拉格朗日函数的定义为：

$\mathcal {L}(w,\alpha,\beta)=f(w)+\sum_{i=1}^{k}\alpha_i g_i(w)+\sum_{i=1}^{l}\beta_i h_i(w)$

$\alpha$ 和 $\beta$ 被称之为拉格朗日乘子。现在定义 $\theta_{\mathcal {P}}(w)=\mathop {\max }\limits_{\alpha,\beta;\alpha_i\ge0}\mathcal {L}(w,\alpha,\beta)$

现在假设 $w$ 给定那么，如果说 $w$ 违背了约束条件，例如 $g_i(w)>0$ 或者 $h_i(w)\,\,\not=0$ ,那么：

$\theta_{\mathcal {P}}(w)=\mathop {\max }\limits_{\alpha,\beta;\alpha_i\ge0}f(w)+\sum_{i=1}^{k}\alpha_i g_i(w)+\sum_{i=1}^{l}\beta_i h_i(w)=\infty$

相反如果 $w$ 符合约束那么 $\theta_{\mathcal {P}}(w)=f(w)$ ,因此：

$\theta_{\mathcal {P}}(w)=\begin{cases}f(w) & if \,\,w\,\,statisfy\,\,primal\,\,constraints\\\infty&otherwise\end{cases}$

如果说 $w$ 满足约束那么， $\theta_{\mathcal {P}}(w)$ 等于原始目标函数，否则无穷大。

$\mathop {\max }\limits_{w}\theta_{\mathcal {P}}(w)=\mathop {\min }\limits_{w}\mathop {\max }\limits_{\alpha,\beta;\alpha_i\ge0}\mathcal {L}(w,\alpha,\beta)$

这个优化问题等于我们的原始优化问题，定义最优解为：
$\mathcal {p}^*=\mathop {\min }\limits_{w}\mathcal {P}(w)$

对偶问题

$\theta_{\mathcal{D}}(\alpha,\beta)=\mathop {\min }\limits_{w}\mathcal{L(w,\alpha,\beta)}$

$\mathop {\max }\limits_{\alpha,\beta;\alpha_i\ge0}\theta_{\mathcal{D}}(\alpha,\beta)=\mathop {\max }\limits_{\alpha,\beta;\alpha_i\ge0}\mathop {\min }\limits_{w}\mathcal{L(w,\alpha,\beta)}$

上式最优解为 $d^*=\mathop {\max }\limits_{\alpha,\beta;\alpha_i\ge0}\theta_{\mathcal{D}}(w)$

$p^*$ 和 $d^*$ 的关系为：

$d^*=\mathop {\max }\limits_{\alpha,\beta;\alpha_i\ge0}\mathop {\min }\limits_{w}\mathcal{L(w,\alpha,\beta)}\le\mathop {\min }\limits_{w}\mathop {\max }\limits_{\alpha,\beta;\alpha_i\ge0}\mathcal {L}(w,\alpha,\beta)=p^*$

$\mathop {\max } \mathop {\min }\le\mathop {\min }\mathop {\max }$

举个例子：

$\mathop {\max }\limits_{y\in\{0,1\}}(\mathop {\min }\limits_{x\in\{0,1\}}1\{x=y\})\le\mathop {\min }\limits_{x\in\{0,1\}}(\mathop {\max }\limits_{y\in\{0,1\}}1\{x=y\})$

KKT(Karush-Kuhn-Tucker)

在某些特定条件下原始问题和对偶问题的解相同，这些条件就是：

$f (w)$ 是一个一个凸函数， $h_i$ 是放射函数，并且 $g_i$ 是可行的，这意味着 $\exists w,\,\,s.t \,\,\forall_i g_i(w)<0$

$f (w)$ 是一个凸函数的判定依据可以为其 $H e s s i a n$ 矩阵是半正定的，放射函数的一般形式为 $h_i(w)=a_i^Tw+b_i$ ,和线性函数类似只是多了截距项 $b_i$

在上面这些假设下，必定存在 $w*,\alpha^*,\beta^*$ 其中 $w^*$ 为原始问题的解， $\alpha^*,\beta^*$ 为对偶问题的解，且满足 $d^*=p^*=\mathcal{L}(w^*,\alpha^{*},\beta^{*})$ 。 $w*,\alpha^*,\beta^*$ 满足KKT条件：

$\frac{\partial}{\partial w_i}\mathcal{L}(w^*,\alpha^{*},\beta^{*})=0,i=1,\cdots,m$

$\frac{\partial}{\partial \beta_i}\mathcal{L}(w^*,\alpha^{*},\beta^{*})=0,i=1,\cdots,l$

$\alpha_i^*g_i(w^*)=0,i=1,\cdots,k$

$g_i(w^*)\le 0,i=1,\cdots,k$

$\alpha_i^*\ge 0,i=1,\cdots,k$

其中 $\alpha_i^*g_i(w^*)=0,i=1,\cdots,k$ 这个式子叫做KKT 对偶完整性条件，它意味着如果 $\alpha_{i}^{*}>0$ 那么 $g_i(w)=0$ ,在这种情况下 $g_i$ 是一个激活约束。

最优间距分类器

在前面的优化问题中找出其最大间隔分类器：

$\mathop {\min }\limits_{w,b}||w||^{2}\\ s.t\,\,\,\,y^{(i)}(w^Tx^{(i)}+b)\ge1$

这里我们将约束写为：

$g_i(w,b)=-y^{(i)}(w^Tx^{(i)}+b)+1\le0$

根据KKT对偶完整性条件，如果 $\alpha_{i}^{*}>0$ ，那么可以推导出函数间隔恰好为1，即 $g_i(w)=0$

在这里插入图片描述

从上图可以看出距离中间实线最近的有三个点，这三个点的函数间隔正好为1，这也意味着只可能这三个样本对应的 $\alpha_i^*$ 不等于0。这三个点被称之为支持向量。在支持向量机的训练样本中并不会有特别多的支持向量。于 $\alpha_i^*=0$ 对应的点称为非支持向量。

这个优化问题对应的拉格朗日函数为：

$\mathcal{L}(w,\alpha,\beta)=\frac{1}{2}||w||^2+\sum_{i=1}^{m}\alpha_i[-y^{(i)}(w^Tx^{(i)}+b)+1]$

由于在支持向量机的设定中只有不等式的约束，没有等式约束，下面看看其对应的对偶问题是什么：

$\theta_{\mathcal{D}}(\alpha)=\mathop {\min }\limits_{w,b}\mathcal{L}(w,b,\alpha)$

对 $\mathcal{L}(w,b,\alpha)$ 求导：
$\nabla_{w}\mathcal{L}(w,b,\alpha)=w-\sum_{i=1}^{m}\alpha_iy^{i}x^{i}=0$

得出：

$w=\sum_{i=1}^{m}\alpha_iy^{i}x^{i}$

$\mathcal{L}(w,b,\alpha)$ 对 $b$ 求导：

$\frac{\partial \mathcal{L}}{\partial b}=\sum_{i=1}^{m}\alpha_iy^{(i)}=0$

将其带入：

$\mathcal{L}(w,b,\alpha)=\frac{1}{2}(\sum_{i=1}^{m}\alpha_iy^{i}x^{i})^T(\sum_{i=j}^{m}\alpha_jy^{j}x^{j})-\cdots\\ =\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}y^{i}y^{j}\alpha_i\alpha_j<x^{(i)},x^{(j)}>-\sum_{i=1}^{m}\sum_{j=1}^{m}y^{i}y^{j}\alpha_i\alpha_j<x^{(i)},x^{(j)}>+\sum_{i=1}^{m}\alpha_i\\ =\sum_{i=1}^{m}\alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}y^{i}y^{j}\alpha_i\alpha_j<x^{(i)},x^{(j)}>-b\sum_{i=1}^{m}\alpha_iy^{(i)}\\= \sum_{i=1}^{m}\alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}y^{i}y^{j}\alpha_i\alpha_j<x^{(i)},x^{(j)}>$

$\mathop {\min }\limits_{a}W(\alpha)=\sum_{i=1}^{m}\alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}y^{i}y^{j}\alpha_i\alpha_j x^{(i)T}x^{(j)}$

$\,\,\,\,\alpha_i\ge0,\,\,i=1,\cdots,m$

$\sum_{i=1}^{m}\alpha_iy^{(i)}=0$

如果 $\sum_{i=1}^{m}\alpha_iy^{(i)}\neq0$ ,那么 $\theta_{\mathcal{D}}(\alpha)=\infty$ ,对于 $\mathop {\max }\limits_{\alpha>0}\theta_{\mathcal{D}}(\alpha)$ 如果 $\sum_{i=1}^{m}\alpha_iy^{(i)}=0$ ,那么 $\mathcal{D}=W(\alpha)$

首先计算 $\alpha$ ,进而可以根据 $w=\sum_{i=1}^{m}\alpha_iy^{(i)}x^{(i)}$ 计算出 $w$ ,最后计算 $b$ 。

$b=-\frac{\mathop {\max }\limits_{i,y^{(i)=-1}}w^{*T}x^{(i)}+\mathop {\min }\limits_{i,y^{(i)=1}}w^{*T}x^{(i)}}{2}$

在这里插入图片描述

对于 $b$ 的求解公式的直观理解就是，找到最差的正样本于负样本，根据它们的位置就知道分隔平面放在哪里了。

假设已经求出了 $w, b$ ，对于一个新的样本点预测其类别 $h_{w,b}(x)=g(w^Tx+b)$ ,我们知道 $w=\sum_{i=1}^{m}\alpha_iy^{i}x^{i}$ ,那么 $w^Tx+b=\sum_{i=1}^{m}\alpha_iy^{i}<x^{i},x>+b$ ，因为大多数样本点对应的 $\alpha$ 都是0，因此只有支持向量参与计算才有意义。