ML Note 1.3 - SVM

最新推荐文章于 2021-04-11 16:34:13 发布

LutingWang

最新推荐文章于 2021-04-11 16:34:13 发布

阅读量281

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/LutingWang/article/details/102749207

版权

ML 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Fisher 准则
Optimal Margin Classifier
Soft Margin Classifier
SMO[^smo]
- Solving for Two Lagrange Multipliers
- Heuristics for Choosing Which Multipliers to Optimize
Kernels

对于一个二分类问题 $\in \{1, -1\}$ 我们希望用一个超平面 $w^Tx + b = 0$ 来区分样本
$sign\left(w^Tx + b\right)$

Fisher 准则

样本空间中总有一个方向 $w$ 使属于不同类别的样本在这一方向上的投影 $z = w^Tx$ 分开得最好。对于类别 $\in \{1, -1\}$ 定义下标集
$\eta_k = \{i|y^{(i)} = k\}$

由此定义样本均值
$\widetilde m_k = \frac{1}{|\eta_k|}\sum\limits_{i \in \eta_k} z_i$

以及样本类内离散度
$\widetilde S_k = \sum\limits_{i \in \eta_k} \left(z_i - \widetilde m_k\right)^2$

我们希望每个类别的 $S_k$ 尽量小，同时样本间的差距尽量大。由此构造准则函数
$\frac{\left(\widetilde m_1 - \widetilde m_{-1}\right)^2}{\widetilde S_1 + \widetilde S_{-1}}$

类似的可以在原样本空间中定义

符号	定义	备注
$m_k$	$\frac{1}{\vert\eta_k\vert}\sum\limits_{i \in \eta_k} x^{(i)}$	样本均值向量
$S_k$	$\sum\limits_{i \in \eta_k} \left(x^{(i)} - m_k\right)\left(x^{(i)} - m_k\right)^T$	样本类内离散度矩阵
$S_w$	$S_1 + S_{-1}$	总类内离散度矩阵
$S_b$	$\left(m_1 - m_{-1}\right)\left(m_1 - m_{-1}\right)^T$	样本类间离散度矩阵

可以证明
$\frac{w^TS_bw^T}{w^TS_ww}$

应用广义瑞利商的性质可以证明¹
$w^* = S_w^{-1}\left(m_1 - m_{-1}\right)$

计算阈值时，可以采用经验公式
$-\frac{1}{2}(\widetilde m_1 + \widetilde m_{-1})$

或者用贝叶斯分类器确定。

Support vector machine 希望找到一个超平面，使超平面两侧的空白区域达到最大。

Optimal Margin Classifier

假设 $S$ 线性可分，可以认为 $w^Tx+b$ 的绝对值反映了单次预测的可信度。定义 functional margin
$\hat\gamma^{(i)} = y^{(i)}(w^Tx^{(i)}+b)$

如果 $\hat\gamma^{(i)} > 0$ 则说明预测正确。而 $\hat\gamma^{(i)}$ 越大，说明预测的可信度越高。定义样本集的 functional margin
$\hat\gamma = \min\limits_{i=1,\dots,m}\hat\gamma^{(i)}$

则我们的目标可以表示为
$\max\limits_{w, b}{\hat\gamma}$

但是如果 $w$ 以一定比例增大 $\hat\gamma$ 可以变得无穷大。因此我们还需要一个约束
$∣ ∣ w ∣ ∣ = 1$

但是这个问题并不是凸优化，因此定义 geometric margins
$\begin{array}{lcl} \gamma^{(i)} &=& y^{(i)}\left(\left(\frac{w}{||w||}\right)^Tx^{(i)}+\frac{b}{||w||}\right)\\ \gamma &=& \min\limits_{i=1,\dots,m}\gamma^{(i)} \end{array}$

从几何角度考虑， $\gamma^{(i)}$ 代表第 i 个样本到决策面的距离。因为距离决策面越远的点具有越高的可信度，所以原问题可以变为
$\max\limits_{w, b}{\gamma}$

但是现在目标函数不是凸函数，因此还是不能应用凸优化。不过 w 的长度可以任取而不影响目标函数值了，而总有一个系数可以使 $\hat\gamma = 1$ 成立。因此将原问题重述为
$\begin{array}{rll} \min\limits_{w, b} & \frac{1}{2}||w||^2 &\\ \text{s.t.} & y^{(i)}(w^Tx^{(i)}+b) \ge 1, & i=1,\dots,m \end{array}$

Soft Margin Classifier

对于线性不可分的 $S$ 采用 $l_1$ regularization 重述问题
$\begin{array}{rll} \min\limits_{w, b, \xi} & \frac{1}{2}||w||^2 + C\sum\limits_{i=1}^m\xi_i&\\ \text{s.t.} & y^{(i)}(w^Tx^{(i)}+b) \ge 1 - \xi_i, & i=1,\dots,m\\ & \xi_i \ge 0, & i=1,\dots,m \end{array}$

构造 generalized Lagrangian
$L(w,b,\xi,\alpha,\beta) = \frac{1}{2}||w||^2 + C\sum\limits_{i=1}^m\xi_i- \sum\limits_{i=1}^m \alpha_i[y^{(i)}(w^Tx^{(i)}+b)-1+\xi_i] - \sum\limits_{i=1}^m\beta_i\xi_i$

容易验证
$\begin{array}{rcl} w &=& \vec 0\\ b &=& 0\\ \xi_i &=& 2 \end{array}$

满足 the Slater’s condition，因此对偶问题与原问题有相同的最优解
$\begin{array}{rll} \max\limits_{\alpha, \beta} & \theta_D(\alpha, \beta) \end{array}$

为了求
$\theta_D(\alpha, \beta) = \min\limits_{w, b, \xi}L$

对 $L$ 求导得
$\begin{array}{rclcl} \nabla_wL &=& w-\sum\limits_{i=1}^m \alpha_iy^{(i)}x^{(i)} &=& 0\\ \frac{\partial}{\partial b}L &=& -\sum\limits_{i=1}^m \alpha_iy^{(i)} &=& 0\\ \frac{\partial}{\partial\xi_i}L &=& C-\alpha_i-\beta_i &=& 0 \end{array}$

带入 $L$ 可得对偶问题
$\begin{array}{rll} \max\limits_{\alpha, \beta} & \sum\limits_{i=1}^m \alpha_i - \frac{1}{2}\sum\limits_{i,j=1}^m y^{(i)}y^{(j)}\alpha_i\alpha_j\langle x^{(i)}, x^{(j)}\rangle\\ \text{s.t.} & 0 \le \alpha_i \le C,\quad i=1,\dots,m\\ & \sum\limits_{i=1}^m \alpha_iy^{(i)} = 0 \end{array}$

由 KKT complementary conditions 可以得到
$\begin{array}{rcl} a_i^* = 0 &\Rightarrow& y^{(i)}(w^Tx^{(i)}+b) \ge 1\\ 0 < a_i^* < C &\Rightarrow& y^{(i)}(w^Tx^{(i)}+b) = 1\\ a_i^* = C &\Rightarrow& y^{(i)}(w^Tx^{(i)}+b) \le 1\\ \end{array}$

SMO²

为了同时对 $(\alpha_1, \alpha_2, \dots, \alpha_m)$ 进行优化，最直观的想法是使用坐标上升。但是在这个问题中，等式条件
$\sum\limits_{i=1}^m \alpha_iy^{(i)} = 0$

在改变任何一个变量的值后都无法保持成立。因此 SMO 算法同时更新两个变量，以保持等式条件成立
$\begin{aligned} &\text{repeat}\ \{\\ &\qquad \text{Select some pair }(\alpha_i,\alpha_j)\text{ to update by heuristic}\\ &\qquad\text{Optimize }W\text{ w.r.t. }(\alpha_i,\alpha_j)\\ &\} \end{aligned}$

其中 $W$ 为优化的目标函数
$\sum\limits_{i=1}^m \alpha_i - \frac{1}{2}\sum\limits_{i,j=1}^m y^{(i)}y^{(j)}\alpha_i\alpha_j\langle x^{(i)}, x^{(j)}\rangle$

Solving for Two Lagrange Multipliers

设第一步中选取的优化变量为 $(\alpha_1,\alpha_2)$ 令常数
$\zeta \equiv -\sum\limits_{i=3}^m\alpha_iy^{(i)} = \alpha_1y^{(1)} + \alpha_2y^{(2)}$

则两个优化变量实际可以简化为一个
$\alpha_1 = (\zeta-\alpha_2y^{(2)})y^{(1)}$

由此将原问题转化为单变量优化问题
$\alpha_2 := \arg\max_{\hat\alpha_2} W((\zeta-\hat\alpha_2y^{(2)})y^{(1)},\hat\alpha_2,\alpha_3,\dots,\alpha_m)$

定义变量
$\begin{array}{rcl} \eta &=& \langle x^{(1)}, x^{(1)}\rangle + \langle x^{(2)}, x^{(2)}\rangle - 2\langle x^{(1)}, x^{(2)}\rangle\\ E_i &=& w^Tx^{(i)} + b - y^{(i)} \end{array}$

注意到 $\eta$ 是 $W$ 的二阶导数，一般情况下有 $\eta \gt 0$ 。可以解得³
$\alpha_2 := \alpha_2 + \frac{y^{(2)}\left(E_1 - E_2\right)}{\eta}$

由此求出的 $\alpha_2$ 有可能违反约束条件 $0 < a_i^* < C$ 。为了使 $(\alpha_1, \alpha_2)$ 同时满足约束条件，这个点必须位于下图的斜线上

smo_bounds

当 $y_1 \ne y_2$ 时，定义
$\begin{array}{rcl} H &=& \min\{C, C + \alpha_2 - \alpha_1\}\\ L &=& \max\{0, \alpha_2 - \alpha_1\} \end{array}$

否则，定义
$\begin{array}{rcl} H &=& \min\{C, \alpha_2 + \alpha_1\}\\ L &=& \max\{0, \alpha_2 + \alpha_1 - C\} \end{array}$

如果变量的最优值违反了约束条件而无法取到，则选择这一变量可行域中最接近最优值的一侧边界作为新的变量值
$\alpha_2^{new, clipped} := \left\{\begin{array}{rcl} H, & \alpha_2^{new} \ge H\\ \alpha_2^{new}, & L \lt \alpha_2^{new} \lt H\\ L, & \alpha_2^{new} \le L \end{array}\right.$

由此可以解得
$\alpha_1 := \alpha_1 + y^{(1)}y^{(2)}\left(\alpha_2- \alpha_2^{new, clipped}\right)$

得到 $\alpha_1, \alpha_2$ 后，需要更新 $b$ 使 KKT 条件对其成立。定义
$\begin{array}{rcl} b_1 &=& b - E_1 - y^{(1)}(\alpha_1^{new} - \alpha_1)\langle x^{(1)}, x^{(1)}\rangle - y^{(2)}(\alpha_2^{new, clipped} - \alpha_2)\langle x^{(1)}, x^{(2)}\rangle\\ b_2 &=& b - E_2 - y^{(1)}(\alpha_1^{new} - \alpha_1)\langle x^{(2)}, x^{(1)}\rangle - y^{(2)}(\alpha_2^{new, clipped} - \alpha_2)\langle x^{(2)}, x^{(2)}\rangle \end{array}$

当 $\alpha_1 \in (0, C)$ 时 $b_1$ 有效，对 $\alpha_2$ 同理。如果只有一个 $b$ 有效时，该值即为新的阈值。当两个 $b$ 都有效时，应有 $b_1 = b_2$ 成立。当两个 $b$ 都无效时，取
$\frac{b_1 + b_2}{2}$

Heuristics for Choosing Which Multipliers to Optimize

Osuna’s Theorem 保证每次更新都会使目标函数值减小，只要有至少一个 $\alpha$ 违反了 KKT 条件。为了保证收敛 SMO 首先寻找违反 KKT 条件的 $\alpha_2$ 作为 $\alpha_2$ 。这里所说的违反 KKT 条件指的是不满足
$\begin{array}{rcl} a_i^* = 0 &\land& y^{(i)}(w^Tx^{(i)}+b) \ge 1\\ 0 < a_i^* < C &\land& y^{(i)}(w^Tx^{(i)}+b) = 1\\ a_i^* = C &\land& y^{(i)}(w^Tx^{(i)}+b) \le 1\\ \end{array}$

通过化简可以得到等价的判断条件
$\left(y^{(i)}E_i < 0 \land a_i^* < C\right) \lor \left(y^{(i)}E_i > 0 \land a_i^* > 0\right)$

由于 KKT 条件本身是比较严格的，因此引入误差项 $\varepsilon$ 一般取 $1e^{-3}$
$\left(y^{(i)}E_i < -\varepsilon \land a_i^* < C\right) \lor \left(y^{(i)}E_i > \varepsilon \land a_i^* > 0\right)$

当遍历过整个数据集后，那些处在边界的 $\alpha$ 在后续更新时会倾向于留在边界。这里所说的边界指 $\alpha = 0$ 或 $\alpha = C$ 。为了将 CPU 时间集中在处理更有可能违背 KKT 条件的数据上 SMO 转而遍历所有非边界 $\alpha$ 直到他们都满足 KKT 条件为止。这时 SMO 只能再次遍历整个数据集。如果遍历过程中没有遇到违反 KKT 条件的数据，即可退出循环；否则跳回上一步遍历非边界点。实现代码如下

numChanged = 0;
examineAll = true;
while (numChanged > 0 || examineAll)
    numChanged = 0;
    if examineAll
        for i = 1 : m
            numChanged = numChanged + examineExample(i);
        end
    else
        for i = 1 : m
            if 0 < alpha(i) && alpha(i) < C
                numChanged = numChanged + examineExample(i);
            end
        end
    end
    if examineAll
        examineAll = false;
    elseif numChanged == 0
        examineAll = 1;
    end
end

选定 $\alpha_2$ 后，可以在所有 $\alpha$ 中选择使步长 $|E_1 - E_2| / \eta$ 最大化的一个作为 $\alpha_1$ 。但是在某些情况下，这样选出的 $\alpha_1$ 不能使更新过程正常进行。这时就需要遍历所有非边界 $\alpha$ 甚至是全体 $\alpha$ 来尝试更新。在一些极端情况下，没有一个 $\alpha$ 可以作为 $\alpha_1$ ，这时就需要抛弃 $\alpha_2$ 重新选择。

当循环结束时，可以根据 $\alpha$ 的值计算
$w^* = \sum\limits_{i=1}^m\alpha_iy^{(i)}x^{(i)}$

但是这个值只有在没有指定核函数时有意义。在使用核函数的情况下需要用下式进行预测
$sign\left(\sum\limits_{i=1}^m\alpha_iy^{(i)}\langle x^{(i)}, x\rangle + b^*\right)$

Kernels

有些情况下，决策边界无法用一个超平面来表示。这时可以选择适当的 feature mapping $\phi$ 将 input attribute $x$ 映射到高维，从而使其线性可分
kernel

但是这样做会使内积的计算量激增，因此实际操作中会选择一个 kernel
$\langle \phi(x), \phi(z) \rangle$

左式的核函数一般计算起来比较简便，从而避免了映射和内积的操作。常见的核函数有

名称	$K (x, z)$
Polynomial	$x^Tz+c)^d$
Gaussian	$\exp\left(-\frac{\vert\vert x-z\vert\vert^2}{2\sigma^2}\right)$
Sigmoid	$\tanh\left(\beta_0 x^Tz + \beta_1\right)$

但是并不是任何一个函数都可以作为核函数，因为不一定存在适当的基函数 $\phi$ 与之对应。对于一个函数
$\mathbb{R}^n \times\mathbb{R}^n\rightarrow \mathbb{R}$

定义其对应的 kernel matrix
$(K_{ij}) \in \mathbb{R}^{n\times n}$

其中
$K_{ij} = K(x^{(i)},x^{(j)})$

Mercer theorem 给出了 $K$ 是一个合法核函数的充分必要条件

Matrix $K$ is symmetric positive semi-definite

线性判别分析LDA原理总结 ↩︎
【机器学习详解】SMO算法剖析 ↩︎
对 $W$ 求导得
$\frac{\partial}{\partial \alpha_i} W = 1 - y^{(i)}\sum\limits_{j = 1}^m y^{(j)}\alpha_j\langle x^{(i)}, x^{(j)}\rangle$ 设 $f(\alpha_2) = W\left(\left(\zeta-\alpha_2y^{(2)}\right)y^{(1)}, \alpha_2, \alpha_3, \dots, \alpha_m\right)$ 则
$\begin{array}{rcl} \frac{df}{d \alpha_2} &=& \frac{\partial}{\partial \alpha_1} W \cdot \left(-y^{(1)}y^{(2)}\right) + \frac{\partial}{\partial \alpha_2} W\\ &=& 1 - y^{(2)}\sum\limits_{j = 1}^m y^{(j)}\alpha_j\langle x^{(2)}, x^{(j)}\rangle - y^{(1)}y^{(2)} + y^{(2)}\sum\limits_{j = 1}^m y^{(j)}\alpha_j\langle x^{(1)}, x^{(j)}\rangle\\ &=& 1 - y^{(1)}y^{(2)} + y^{(2)}\sum\limits_{j = 3}^m y^{(j)}\alpha_j\langle x^{(1)}, x^{(j)}\rangle - y^{(2)}\sum\limits_{j = 3}^m y^{(j)}\alpha_j\langle x^{(2)}, x^{(j)}\rangle\\ && + y^{(2)} y^{(1)}\alpha_1\langle x^{(1)}, x^{(1)}\rangle + \alpha_2\langle x^{(1)}, x^{(2)}\rangle - y^{(2)} y^{(1)}\alpha_1\langle x^{(2)}, x^{(1)}\rangle\\ && - \alpha_2\langle x^{(2)}, x^{(2)}\rangle\\ &=& 1 - y^{(1)}y^{(2)} + y^{(2)}\sum\limits_{j = 3}^m y^{(j)}\alpha_j\langle x^{(1)}, x^{(j)}\rangle - y^{(2)}\sum\limits_{j = 3}^m y^{(j)}\alpha_j\langle x^{(2)}, x^{(j)}\rangle\\ && + y^{(2)}\zeta\left(\langle x^{(1)}, x^{(1)}\rangle - \langle x^{(1)}, x^{(2)}\rangle\right) - \eta\alpha_2\\ &=& 0 \end{array}$ 可以解得
$\begin{array}{rcl} y^{(2)}\eta\alpha_2^{new} &=& y^{(2)} - y^{(1)} + \sum\limits_{j = 3}^m y^{(j)}\alpha_j\langle x^{(1)}, x^{(j)}\rangle - \sum\limits_{j = 3}^m y^{(j)}\alpha_j\langle x^{(2)}, x^{(j)}\rangle\\ && + \zeta\left(\langle x^{(1)}, x^{(1)}\rangle - \langle x^{(1)}, x^{(2)}\rangle\right)\\ &=& y^{(2)} - y^{(1)} + \sum\limits_{j = 1}^m y^{(j)}\alpha_j\langle x^{(1)}, x^{(j)}\rangle - \sum\limits_{j = 1}^m y^{(j)}\alpha_j\langle x^{(2)}, x^{(j)}\rangle\\ && + y^{(2)}\eta\alpha_2 \end{array}$ over. ↩︎

LutingWang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
ML Note 1.3 - SVM

ContentsOptimal Margin ClassifierSoft Margin ClassifierSMO[^smo]KernelsSupport vector machines 几乎是最好的有监督学习算法。对于一个线性二分问题，设 y∈{−1,1},x∈Rny \in \{-1,1\}, x \in \mathbb{R}^ny∈{−1,1},x∈Rn。注意到我们没有使用增广形式的特征...
复制链接

扫一扫