机器学习（四）——SVM（2）

最新推荐文章于 2022-01-01 14:46:21 发布

antkillerfarm

最新推荐文章于 2022-01-01 14:46:21 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：机器学习 svm

本文链接：https://blog.csdn.net/antkillerfarm/article/details/52754219

版权

机器学习专栏收录该内容

38 篇文章 33 订阅

订阅专栏

http://antkillerfarm.github.io/

拉格朗日对偶（续）

如果w不满足约束，也就是 $g_i(w)>0$ 或 $h_i(w)\ne 0$ 。这时由于 $\mathcal{L}$ 函数是无约束函数， $\alpha_i$ 、 $\beta_i$ 可以任意取值，因此 $\sum_{i=1}^k\alpha_ig_i(w)$ 或 $\sum_{i=1}^l\beta_ih_i(w)$ 并没有极值，也就是说 $\theta_\mathcal{P}(w)=\infty$ 。

反之,如果w满足约束，则 $\sum_{i=1}^k\alpha_ig_i(w)$ 和 $\sum_{i=1}^l\beta_ih_i(w)$ 都为0，因此 $\theta_\mathcal{P}(w)=f(w)$ 。

综上：

θ P (w) = {f (w), \infty, w 满 足 约 束 w 不 满 足 约 束

$\theta_\mathcal{P}(w)=\begin{cases} f(w), & w满足约束 \\ \infty, & w不满足约束 \\ \end{cases}$

我们定义：

p * = min w θ P (w) = min w max α, β : α i \geq 0 L (w, α, β)

$p^*=\underset{w}{\operatorname{min}}\theta_\mathcal{P}(w)=\underset{w}{\operatorname{min}}\underset{\alpha,\beta:\alpha_i\ge 0}{\operatorname{max}}\mathcal{L}(w,\alpha,\beta)$

下面我们定义对偶函数：

θ D (w) = min w L (w, α, β)

$\theta_\mathcal{D}(w)=\underset{w}{\operatorname{min}}\mathcal{L}(w,\alpha,\beta)$

这里的 $\mathcal{D}$ 代表原始优化问题的对偶优化问题。仿照原始优化问题定义如下：

d * = max α, β : α i \geq 0 θ D (w) = max α, β : α i \geq 0 min w L (w, α, β)

$d^*=\underset{\alpha,\beta:\alpha_i\ge 0}{\operatorname{max}}\theta_\mathcal{D}(w)=\underset{\alpha,\beta:\alpha_i\ge 0}{\operatorname{max}}\underset{w}{\operatorname{min}}\mathcal{L}(w,\alpha,\beta)$

这里我们不加证明的给出如下公式：

d * = max α, β : α i \geq 0 min w L (w, α, β) \leq min w max α, β : α i \geq 0 L (w, α, β) = p *

$d^*=\underset{\alpha,\beta:\alpha_i\ge 0}{\operatorname{max}}\underset{w}{\operatorname{min}}\mathcal{L}(w,\alpha,\beta)\le\underset{w}{\operatorname{min}}\underset{\alpha,\beta:\alpha_i\ge 0}{\operatorname{max}}\mathcal{L}(w,\alpha,\beta)=p^*$

这样的对偶问题被称作拉格朗日对偶（Lagrange duality）。

KKT条件

拉格朗日对偶公式中使

p * = d *

$p^*=d^*$ 成立的条件，被称为KKT条件（Karush-Kuhn-Tucker conditions）：

\partial \partial w i L (w *, α *, β *) \partial \partial β i L (w *, α *, β *) α * i g i (w *) g i (w *) α * i = 0, i = 1, \dots, n = 0, i = 1, \dots, l = 0, i = 1, \dots, k \leq 0, i = 1, \dots, k \geq 0, i = 1, \dots, k (1)

$\begin{align} \frac{\partial}{\partial w_i}\mathcal{L}(w^*,\alpha^*,\beta^*) & =0,i=1,\dots,n & \\ \frac{\partial}{\partial \beta_i}\mathcal{L}(w^*,\alpha^*,\beta^*) & =0,i=1,\dots,l & \\ \alpha_i^*g_i(w^*)& =0,i=1,\dots,k & \tag{1}\\ g_i(w^*)& \le 0,i=1,\dots,k & \\ \alpha_i^* & \ge 0,i=1,\dots,k & \\ \end{align}$

其中的 $w^*,\alpha^*,\beta^*$ 表示满足KKT条件的相应变量的取值。条件1也被称为KKT对偶互补条件（KKT dual complementarity condition）。显然这些 $w^*,\alpha^*,\beta^*$ 既是原始问题的解，也是对偶问题的解。

严格的说，KKT条件是非线性约束优化问题存在最优解的必要条件。这个问题的充分条件比较复杂，这里不做讨论。

注：Harold William Kuhn，1925～2014，美国数学家，普林斯顿大学教授。

Albert William Tucker，1905～1995，加拿大数学家，普林斯顿大学教授。

William Karush，1917～1997，美国数学家，加州州立大学北岭分校教授。（注意，California State University和University of California是不同的学校）

支持向量

针对最优边距分类问题，我们定义：

g i (w) = - y (i) (w T x (i) + b) + 1 \leq 0

$g_i(w)=-y^{(i)}(w^Tx^{(i)}+b)+1\le 0$

由KKT对偶互补条件可知，如果 $\alpha_i>0$ ，则 $g_i(w)=0$ 。

上图中的实线表示最大边距的分割超平面。由之前对于边距的几何意义的讨论可知，只有离该分界线最近的几个点（即图中的所示的两个x点和一个o点）才会取得约束条件的极值，即 $g_i(w)=0$ 。也只有这几个点的 $\alpha_i>0$ ，其余点的 $\alpha_i=0$ 。这样的点被称作支持向量（support vectors）。显然支持向量的数量是远远小于样本集的数量的。

为我们的问题构建拉格朗日函数如下：

L (w, b, α) = 1 2 ∥ w ∥ 2 - \sum i = 1 m α i [y (i) (w T x (i) + b) - 1] (2)

$\mathcal{L}(w,b,\alpha)=\frac{1}{2}\|w\|^2-\sum_{i=1}^m\alpha_i[y^{(i)}(w^Tx^{(i)}+b)-1] \tag{2}$

为了求解

θ D (α) = min w, b L (w, b, α)

$\theta_\mathcal{D}(\alpha)=\underset{w,b}{\operatorname{min}}\mathcal{L}(w,b,\alpha)$

可得：

\nabla w L (w, b, α) = w - \sum i = 1 m α i y (i) x (i) = 0

$\nabla_w\mathcal{L}(w,b,\alpha)=w-\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}=0$

即

w = \sum i = 1 m α i y (i) x (i) (3)

$w=\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)} \tag{3}$

对b求导可得：

\partial \partial b L (w, b, α) = \sum i = 1 m α i y (i) = 0 (4)

$\frac{\partial}{\partial b}\mathcal{L}(w,b,\alpha)=\sum_{i=1}^m\alpha_iy^{(i)}=0 \tag{4}$

把公式3代入公式2，可得：

L (w, b, α) = 1 2 ∥ w ∥ 2 - \sum i = 1 m α i [y (i) (w T x (i) + b) - 1] = 1 2 w T w - \sum i = 1 m α i y (i) w T x (i) - \sum i = 1 m α i y (i) b + \sum i = 1 m α i = 1 2 w T \sum i = 1 m α i y (i) x (i) - \sum i = 1 m α i y (i) w T x (i) - \sum i = 1 m α i y (i) b + \sum i = 1 m α i = 1 2 w T \sum i = 1 m α i y (i) x (i) - w T \sum i = 1 m α i y (i) x (i) - \sum i = 1 m α i y (i) b + \sum i = 1 m α i = - 1 2 w T \sum i = 1 m α i y (i) x (i) - b \sum i = 1 m α i y (i) + \sum i = 1 m α i = - 1 2 (\sum i = 1 m α i y (i) x (i)) T \sum i = 1 m α i y (i) x (i) - b \sum i = 1 m α i y (i) + \sum i = 1 m α i = - 1 2 \sum i = 1 m α i y (i) (x (i)) T \sum i = 1 m α i y (i) x (i) - b \sum i = 1 m α i y (i) + \sum i = 1 m α i = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y (i) y (j) α i α j (x (i)) T x (j) - b \sum i = 1 m α i y (i) (5)

$\begin{align}\mathcal{L}(w,b,\alpha)&=\frac{1}{2}\|w\|^2-\sum_{i=1}^m\alpha_i[y^{(i)}(w^Tx^{(i)}+b)-1] \\&=\frac{1}{2}w^Tw-\sum_{i=1}^m\alpha_iy^{(i)}w^Tx^{(i)}-\sum_{i=1}^m\alpha_iy^{(i)}b+\sum_{i=1}^m\alpha_i \\&=\frac{1}{2}w^T\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}-\sum_{i=1}^m\alpha_iy^{(i)}w^Tx^{(i)}-\sum_{i=1}^m\alpha_iy^{(i)}b+\sum_{i=1}^m\alpha_i \\&=\frac{1}{2}w^T\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}-w^T\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}-\sum_{i=1}^m\alpha_iy^{(i)}b+\sum_{i=1}^m\alpha_i \\&=-\frac{1}{2}w^T\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}-b\sum_{i=1}^m\alpha_iy^{(i)}+\sum_{i=1}^m\alpha_i \\&=-\frac{1}{2}\left(\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\right)^T\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}-b\sum_{i=1}^m\alpha_iy^{(i)}+\sum_{i=1}^m\alpha_i \\&=-\frac{1}{2}\sum_{i=1}^m\alpha_iy^{(i)}(x^{(i)})^T\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}-b\sum_{i=1}^m\alpha_iy^{(i)}+\sum_{i=1}^m\alpha_i \\&=\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i,j=1}^my^{(i)}y^{(j)}\alpha_i\alpha_j(x^{(i)})^Tx^{(j)}-b\sum_{i=1}^m\alpha_iy^{(i)} \tag{5} \end{align}$

我们定义如下内积符号 $\langle x,y\rangle=x^Ty$ ，并将公式4代入公式5可得：

L (w, b, α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y (i) y (j) α i α j ⟨ x (i), x (j) ⟩

$\mathcal{L}(w,b,\alpha)=\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i,j=1}^my^{(i)}y^{(j)}\alpha_i\alpha_j\langle x^{(i)},x^{(j)}\rangle$

最终我们得到如下对偶优化问题：

max α s . t . W (α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y (i) y (j) α i α j ⟨ x (i), x (j) ⟩ α i \geq 0, i = 1, \dots, m \sum i = 1 m α i y (i) = 0

$\begin{align} &\operatorname{max}_\alpha & & W(\alpha)=\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i,j=1}^my^{(i)}y^{(j)}\alpha_i\alpha_j\langle x^{(i)},x^{(j)}\rangle\\ &\operatorname{s.t.}& & \alpha_i\ge 0,i=1,\dots,m\\ & & & \sum_{i=1}^m\alpha_iy^{(i)}=0 \end{align}$

这个对偶问题的求解，留在后面的章节。这里只讨论求解出 $\alpha^*$ 之后的情况。

首先，根据公式3可求解 $w^*$ 。然后

b * = - max i : y ( i ) = - 1 w * T x ( i ) + min i : y ( i ) = 1 w * T x ( i ) 2

$b^*=-\frac{\max_{i:y^{(i)}=-1}w^{*T}x^{(i)}+\min_{i:y^{(i)}=1}w^{*T}x^{(i)}}{2}$

除此之外，我们还有：

w T x + b = (\sum i = 1 m α i y (i) x (i)) T x + b = \sum i = 1 m α i y (i) ⟨ x (i), x ⟩ + b

$w^Tx+b=\left(\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\right)^Tx+b=\sum_{i=1}^m\alpha_iy^{(i)}\langle x^{(i)},x\rangle+b$

在之前的讨论中，我们已经指出只有支持向量对应的 $\alpha_i$ 才为非零值，因此：

w T x + b = \sum i \in S V α i y (i) ⟨ x (i), x ⟩ + b

$w^Tx+b=\sum_{i\in SV}\alpha_iy^{(i)}\langle x^{(i)},x\rangle+b$

从上式可以看出，在空间维数比较高的情况下，SVM（support vector machines）可以有效降低计算量。

核函数

假设我们从样本点的分布中看到x和y符合3次曲线，那么我们希望使用x的三次多项式来逼近这些样本点。那么首先需要将特征x扩展到三维 $(x,x^2,x^3)$ ，然后寻找特征和结果之间的模型。我们将这种特征变换称作特征映射（feature mapping）。

映射函数记作 $\phi(x)$ ，在这个例子中

ϕ (x) = ⎡ ⎣ ⎢ x x 2 x 3 ⎤ ⎦ ⎥

$\phi(x)=\begin{bmatrix} x \\ x^2 \\ x^3 \end{bmatrix}$

有的时候，我们希望将特征映射后的特征，而不是最初的特征，应用于SVM分类。这样做的情况，除了上面提到的拟合问题之外，还在于样例可能存在线性不可分的情况，而将特征映射到高维空间后，往往就可分了。如下图所示：

为此，我们给出核函数（Kernel）的形式化定义：

K (x, z) = ϕ (x) T ϕ (z)

$K(x,z)=\phi(x)^T\phi(z)$

之所以是形式化定义，这主要在于我们并不利用 $\phi(x)$ 来计算 $K(x,z)$ ，而是给定K(x,z)，来倒推 $\phi(x)$ ，从而建立 $\phi(x)$ 和 $K(x,z)$ 之间的对应关系。

例如：

K (x, z) = (x T z) 2 = (\sum i = 1 n x i z i) (\sum i = 1 n x i z i) = \sum i = 1 n \sum j = 1 n x i x j z i z j = \sum i, j = 1 n (x i x j) (z i z j)

$\begin{align}K(x,z)&=(x^Tz)^2=\left(\sum_{i=1}^nx_iz_i\right)\left(\sum_{i=1}^nx_iz_i\right) \\&=\sum_{i=1}^n\sum_{j=1}^nx_ix_jz_iz_j=\sum_{i,j=1}^n(x_ix_j)(z_iz_j) \end{align}$

根据上式可得：（这里假设 $n=3$ ）

ϕ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 1 x 1 x 2 x 1 x 3 x 2 x 1 x 2 x 2 x 2 x 3 x 3 x 1 x 3 x 2 x 3 x 3 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\phi(x)=\begin{bmatrix} x_1x_1 \\ x_1x_2 \\ x_1x_3 \\ x_2x_1 \\ x_2x_2 \\ x_2x_3 \\ x_3x_1 \\ x_3x_2 \\ x_3x_3 \\ \end{bmatrix}$

可以看出 $\phi(x)$ 的计算复杂度是 $O(n^2)$ ，而 $(x^Tz)^2$ 的计算复杂度是 $O(n)$ 。

下面我们讨论其他几种常用核函数和它对应的 $\phi(x)$ 。

K (x, z) = (x T z + c) 2 = \sum i, j = 1 n (x i x j) (z i z j) + \sum i = 1 n (2 c - - \sqrt x i) (2 c - - \sqrt z i) + c 2

$\begin{align}K(x,z)&=(x^Tz+c)^2 \\&=\sum_{i,j=1}^n(x_ix_j)(z_iz_j)+\sum_{i=1}^n(\sqrt{2c}x_i)(\sqrt{2c}z_i)+c^2 \end{align}$

同样的：（ $n=3$ ）

ϕ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 1 x 1 x 2 x 1 x 3 x 2 x 1 x 2 x 2 x 2 x 3 x 3 x 1 x 3 x 2 x 3 x 3 2 c - - \sqrt x 1 2 c - - \sqrt x 2 2 c - - \sqrt x 3 c ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\phi(x)=\begin{bmatrix} x_1x_1 \\ x_1x_2 \\ x_1x_3 \\ x_2x_1 \\ x_2x_2 \\ x_2x_3 \\ x_3x_1 \\ x_3x_2 \\ x_3x_3 \\ \sqrt{2c}x_1 \\ \sqrt{2c}x_2 \\ \sqrt{2c}x_3 \\ c \end{bmatrix}$

更一般的，对于 $K(x,z)=(x^Tz+c)^d$ ，其对应的 $\phi(x)$ 是 $\begin{pmatrix} n+d \\ d \\ \end{pmatrix}$ 维向量。

我们也可以从另外的角度观察 $K(x,z)=\phi(x)^T\phi(z)$ 。从内积的几何意义来看，如果 $\phi(x)$ 和 $\phi(z)$ 夹角越小，则 $K(x,z)$ 的值越大；反之，如果 $\phi(x)$ 和 $\phi(z)$ 的夹角越接近正交，则 $K(x,z)$ 的值越小。因此， $K(x,z)$ 也叫做 $\phi(x)$ 和 $\phi(z)$ 的余弦相似度。

讨论另一个核函数：

K (x, z) = exp (- ∥ x - z ∥ 2 2 σ 2)

$K(x,z)=\exp\left(-\frac{\|x-z\|^2}{2\sigma^2}\right)$

这个核函数被称为高斯核函数（Gaussian kernel），对应的 $\phi(x)$ 是个无限维的向量。

注： $(a+b)^n$ 是个p为0.5的二项分布，由棣莫佛-拉普拉斯定理（de Moivre–Laplace theorem）可知，当 $n\to\infty$ 时，它的极限是正态分布。

核函数的有效性

如果对于给定的核函数K，存在一个特征映射 $\phi$ ，使得 $K(x,z)=\phi(x)^T\phi(z)$ ，则称K为有效核函数。

我们首先假设K为有效核函数，来看看它有什么性质。假设有m个样本 $\{x^{(1)},\dots,x^{(m)}\}$ ，我们定义 $m\times m$ 维的矩阵k： $K_{ij}=K(x_i,x_j)$ 。这个矩阵被称为核矩阵（Kernel matrix）。

K i j = K (x i, x j) = ϕ (x (i)) T ϕ (x (j)) = ϕ (x (j)) T ϕ (x (i)) = K (x j, x i) = K j i

$K_{ij}=K(x_i,x_j)=\phi(x^{(i)})^T\phi(x^{(j)})=\phi(x^{(j)})^T\phi(x^{(i)})=K(x_j,x_i)=K_{ji}$

如果我们用 $\phi_k(x)$ 表示 $\phi(x)$ 第k个元素的话，则对于任意向量z：

z T K z = \sum i \sum j z i K i j z j = \sum i \sum j z i ϕ (x (i)) T ϕ (x (j)) z j = \sum i \sum j z i \sum k ϕ k (x (i)) ϕ k (x (j)) z j = \sum k \sum i \sum j z i ϕ k (x (i)) ϕ k (x (j)) z j = \sum k (\sum i z i ϕ k (x (i))) 2 \geq 0

$\begin{align}z^TKz&=\sum_i\sum_jz_iK_{ij}z_j=\sum_i\sum_jz_i\phi(x^{(i)})^T\phi(x^{(j)})z_j \\&=\sum_i\sum_jz_i\sum_k\phi_k(x^{(i)})\phi_k(x^{(j)})z_j=\sum_k\sum_i\sum_jz_i\phi_k(x^{(i)})\phi_k(x^{(j)})z_j \\&=\sum_k\left(\sum_iz_i\phi_k(x^{(i)})\right)^2\ge 0 \end{align}$

即K矩阵是半正定矩阵。事实上，K矩阵是对称半正定矩阵，不仅是K函数有效的必要条件，也是它的充分条件。相关的证明是由James Mercer给出的，被称为Mercer定理（Mercer Theorem）。