机器学习算法（三）- 支持向量机

最新推荐文章于 2024-03-21 12:04:34 发布

Anycall201

最新推荐文章于 2024-03-21 12:04:34 发布

阅读量155

点赞数

分类专栏：机器学习算法文章标签：机器学习

本文链接：https://blog.csdn.net/anycall201/article/details/111400656

版权

机器学习算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1 背景

假设样本为 $\begin{Bmatrix} x_i,y_i \end{Bmatrix}_{i=1}^{N}$ ，其中 $y\in{\begin{Bmatrix} 1,-1 \end{Bmatrix}}$ , 意图构造分类器 $\hat y=sign(w^Tx+b)$

若样本可分，则满足条件的 $w, b$ 有无穷多组解。

支持向量机解决的问题就是从这无穷多组解中，找到泛化性能最好的一组。

2 思想

假设样本点 $x_i,y_i)$ 到超平面 $w^Tx+b=0$ 的距离为 $d_i$ ,
则泛化性能最好的 $\hat{w},\hat{b}$ 满足: $\hat{w},\hat{b} = \underset{w,b}{argmax}(min(d_1,d_2,...,d_N))$ 。
从几何角度去解释即：找到一超平面，使得所有样本点到平面的最小距离最大化。

3 推导

根据线性代数的知识， $x_i,y_i)$ 到超平面 $w^Tx+b=0$ 的距离为
$d_i = \frac{1}{||w||}|w^Tx_i+b|$

结合 $y_i\in{\begin{Bmatrix} 1,-1 \end{Bmatrix}}$ ，可去掉绝对值符号
$d_i = \frac{1}{||w||}(w^Tx_i+b)y_i$

由于对 $w, b$ 等比例缩放，得到的是同一超平面，因此存在 $w, b$ 满足
$min\begin{Bmatrix} (w^Tx_i+b)y_i \end{Bmatrix}_{i=1}^{N} = 1$

因此，可将问题简化为
$\begin{aligned} &\hat{w},\hat{b} = \underset{w,b}{argmax}\frac{1}{||w||} \\ s.t \ &\ \ \ min(w^Tx_i+b)y_i=1 \end{aligned}$

将公式进一步变形可得
$\begin{aligned} &\hat{w},\hat{b} = \underset{w,b}{argmin}\frac{1}{2}w^Tw \\ s&.t \ \ \ \ (w^Tx_i+b)y_i \geq 1 \end{aligned}$

定义
$\begin{aligned} L(w,b,\lambda) &= \frac{1}{2}w^Tw - \sum_{i=1}^{N}{\lambda_i[(w^Tx_i+b)y_i-1]} \\ s.t &\ \ \ \ (w^Tx_i+b)y_i-1\geq0,\ \ \lambda_i\geq0 \end{aligned}$

由于 $\lambda_i\geq0$
$\underset{\lambda\geq0}{max}L(w,b,\lambda) = \left\{ \begin{matrix} \frac{1}{2}w^Tw \ \ \ \ &(w^Tx_i+b)y_i-1\geq0 \\ +\infty \ \ \ \ &(w^Tx_i+b)y_i-1\lt0 \end{matrix} \right.$

$\underset{w,b,\lambda_i\geq0}{min}L(w,b,\lambda) = \underset{w,b}{min}(\frac{1}{2}w^Tw,+\infty) = \underset{w,b}{min}{\frac{1}{2}w^Tw}$

因此，可去掉 $(w^Tx_i+b)y_i-1\geq0$ 的约束，将原问题变形为
$L(\hat{w},\hat{b},\hat\lambda) = \underset{w,b}{min}\underset{\lambda}{max}L(w,b,\lambda) \ \ s.t \ \ \lambda\geq0$

上式即为SVM的原问题。

4 计算

在上述SVM的原问题中，不能直接将 $L(w,b,\lambda)$ 对 $\lambda$ 求导，考虑到函数 $f(w)=\frac{1}{2}w^Tw$ 为凸函数，且约束条件 $\lambda_i\geq0$ 满足Slater条件。

所以，SVM的原问题可等价转化为其对偶问题求解，也即
$\begin{aligned} L(\hat{w},\hat{b},\hat\lambda) &= \underset{\lambda}{max}\underset{w,b}{min}L(w,b,\lambda) \\ &= \underset{\lambda}{max}\underset{w,b}{min}(\frac{1}{2}w^Tw - \sum_{i=1}^{N}{\lambda_i[(w^Tx_i+b)y_i-1])} \ \ s.t \ \ \lambda\geq0 \end{aligned}$

对 $b$ 求导可得
$\sum_{i=1}^{N}\lambda_iy_i = 0$

对 $w$ 求导可得
$=\sum_{i=1}^{N}\lambda_iy_ix_i$

将结果带入 $L(w,b,\lambda)$ ，化简可得
$L(\hat{w},\hat{b},\hat\lambda) = \underset{\lambda}{max}(\sum_{i=1}^{N}{\lambda_i} - \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}{\lambda_i\lambda_jy_iy_jx_i^Tx_j})$

$\ \ \ \ 0 \leq \lambda_i \leq C, \ \ \ \ \sum_{i=1}^{N}{\lambda_iy_i}=0$

5 SMO算法

为了求出满足条件的 $\lambda$ , 结合约束条件 $\sum_{i=1}^{N}{\lambda_iy_i}=0$ ，可使用SMO算法成对更新 $\lambda_i, \lambda_j$ 。
详细过程见SMO算法详解，这里直接给出结论

记 $x_i, x_j$ 的内积为 $K_{ij}$ ， $\eta = K_{11}+K_{12}-2K_{12}$ ，误差 $E_i = w^Tx_i+b-y_i$

5.1 更新 $\lambda$

更新后的 $\lambda_j$
$\lambda_j^{new} = \lambda_j^{old} + \frac{y_j(E_i-E_j)}{\eta}$

结合约束条件 $\leq \lambda_i \leq C$
$\lambda_j^{new} = min(max(\lambda_j^{new}, L), H)$

其中
$\left\{ \begin{matrix} max(0, \lambda_j^{old}-\lambda_i^{old}) \ \ \ \ \ \ \ \ \ &(y_i \neq y_j) \\ max(0, \lambda_j^{old}+\lambda_i^{old}-C) \ \ \ \ \ \ \ \ \ &(y_i = y_j) \end{matrix} \right.$

$\left\{ \begin{matrix} min(C, C+\lambda_j^{old}-\lambda_i^{old}) \ \ \ \ \ \ \ \ \ &(y_i \neq y_j) \\ min(C, \lambda_j^{old}+\lambda_i^{old}) \ \ \ \ \ \ \ \ \ &(y_i = y_j) \end{matrix} \right.$

结合约束条件 $\sum_{i=1}^{N}{\lambda_iy_i}=0$ ，更新 $\lambda_i$
$\lambda_i^{new} = \lambda_i^{old} + y_iy_j(\lambda_j^{old}-\lambda_j^{new})$

5.2 更新 $b$

根据互补松弛条件

记 $b_i = E_i - (\lambda_i^{new}-\lambda_i^{old})y_iK_{ii} - (\lambda_j^{new}-\lambda_j^{old})y_jK_{ij} + b^{old}$
记 $b_j = E_j - (\lambda_i^{new}-\lambda_i^{old})y_iK_{ij} - (\lambda_j^{new}-\lambda_j^{old})y_jK_{jj} + b^{old}$

更新 $b$
$b^{new} = \left\{ \begin{matrix} b_i \ \ \ \ \ \ \ \ \ &(0 \lt \lambda_i \lt C) \\ b_j \ \ \ \ \ \ \ \ \ &(0 \lt \lambda_j \lt C) \\ \frac{b_i+b_j}{2} \ \ \ \ \ \ \ \ \ &(others) \\ \end{matrix} \right.$