SVM学习笔记

最新推荐文章于 2022-08-22 15:50:58 发布

iven2166

最新推荐文章于 2022-08-22 15:50:58 发布

阅读量301

点赞数 1

分类专栏：机器不学习-理论

本文链接：https://blog.csdn.net/iven2166/article/details/88625720

版权

机器不学习-理论专栏收录该内容

2 篇文章 0 订阅

订阅专栏

SVM支持向量机学习

基础
7.1 线性可分SVM
7.2 线性SVM与软间隔最大化
优缺点
用于回归问题
参考书目

基础

本文基本上参考《李航-统计学习方法》进行学习、排版。

二类分类模型；
基本模型是定义在特征空间上、间隔最大的线性分类器；
学习策略是间隔最大化，可形式化为求解凸二次规划问题，等价于正则化的损失函数最小化问题；
和感知机有何区别：SVM是间隔最大化；
模型细分类：
（1）线性可分支持向量机：数据线性可分时，通过硬间隔最大化，学习线性上分类的SVM。
（2）线性支持向量机（软间隔支持向量机）：数据近似线性可分时，通过软间隔最大化，学习线性SVM。
（3）非线性支持向量机：数据线性不可分，通过核技巧（kernal） 以及软间隔最大化，学习非线性的SVM。
核函数（kernal）：
输入空间为欧氏空间（多维），或者离散集合，特征空间为希尔伯特空间（完备性）时，核函数表示了，从输入空间映射到特征空间得到的特征向量之间的内积。（之后再解释）
最开始应该如何定义数据集和系数的维度？笔者不太理解《李航-统计学习方法》中，在对偶问题中，是否直接将 $x_i$ 视作一个点？
笔者的理解：
单个点计算情况

$y_i$	( $w$	$x_i$	+	$b$ )
1*1	1*d	d*1		1*1

$\left[ \begin{matrix} y_1 \\ y_2 \\ ...\\ y_n\\ \end{matrix} \right]$

$\omega= \left[ \begin{matrix} \omega_1 \\ \omega_2 \\ ...\\ \omega_d\\ \end{matrix} \right]$

$x_i= \left[ \begin{matrix} x_{i,1} \\ x_{i,2} \\ ...\\ x_{i,d} \\ \end{matrix} \right]$

$\left[ \begin{matrix} x_{1}^{T} \\ x_{2}^{T} \\ ...\\ x_{n}^{T} \\ \end{matrix} \right]$

7.1 线性可分SVM

7.1.1 线性可分SVM定义

假设给定一个特征空间上的训练数据集为：
$T= \{ (x_1,y_1),...,(x_i,y_i),...,(x_N,y_N) \}$

$y_i \in y=[-1,+1]$

其中， $x_i \in x \equiv R^n$ 称作第i个特征向量，或者实例（理解为样本点）。

定义7.1（线性可分SVM）： 这里是引用《李航-统计学习方法》
给定的线性可分训练数据集，通过间隔最大化或者等价求解 —> 凸二次规划问题，学习到模型即分离超平面，以及判断函数：
$w^* * x+b=0 \\ \tag{7.1} f(x) = sign(w^* * x+b)$

7.1.2 函数间隔和几何间隔

函数间隔概念：分类准确度存在确定程度，在确定 $w^* * x+b=0$ 的超平面之后，能够得到目标点距离超平面的距离，距离越远，说明判断的确信程度更高。利用变量 $y(w^* * x+b)$ 来表示正确性和确信程度。

定义7.2（函数间隔，有hat）： 这里是引用《李航-统计学习方法》
给定的数据集T以及超平面 $(w, b)$ ，定义样本点和超平面的函数间隔为
$\hat{\gamma_{i}} = y_i * (w* x_i + b) \tag{7.3}$
此外，定义超平面 $(w, b)$ 关于训练数据集T的函数间隔为超平面关于所有样本点的函数间隔的最小值【也就是，最靠近】
$\hat{\gamma} = min \hat{\gamma_{i}} \tag{7.4}$

定义7.3（几何间隔，无hat）： 这里是引用《李航-统计学习方法》
由于 $w$ 的值对于距离有影响，所以需要进行规范化，使得它的范数为1。如果 $∣ ∣ w ∣ ∣ = 1$ 则两种间隔相同。
${\gamma_i} = y_i * (\frac{w}{||w||}*x_i + \frac{b}{||w||} ) \tag{7.5}$
类推，超平面关于关于训练数据集T的几何间隔为超平面关于所有样本点的几何间隔的最小值【也就是，最靠近】
${\gamma} = min {\gamma_{i}} \tag{7.6}$

所以得知，几何间隔 $\gamma$ 与函数间隔 $\hat{\gamma}$ 有如下关系：
$\gamma = \frac{\hat{\gamma}}{||\omega||} \tag{7.8}$

7.1.3 间隔最大化（学习策略）

直观解释：找到“几何间隔”最大化的超平面，以达到最大的确信程度来进行分类。（尚未涉及可能出现分类混杂于彼此的样本小现象）

最大间隔分离超平面
$\max_{w,b}\ \gamma \\ subject \ to \ {\gamma_i} = y_i * (\frac{w}{||w||}*x_i + \frac{b}{||w||} ) \\ \gamma = \min \ \gamma_{i}$
由于几何间隔的“地板”为 $\gamma$ ，然后再最大化这个指标，写作：
$\max_{w,b}\ \ \gamma \\ s.t. \ y_i * (\frac{w}{||w||}*x_i + \frac{b}{||w||} ) \geq {\gamma} \tag{7.10}$
写成函数间隔（带hat）的形式，可能存在 $\lambda$ 使得距离进行拉伸，
$\lambda w ,\lambda b --> \lambda \gamma$ ，所以取 $\hat{\gamma} = 1$
$\max_{w,b}\ \ \frac{\hat{\gamma}}{||\omega||} \\ s.t. \ y_i * (\omega*x_i +b ) \geq \hat{\gamma} \tag{7.10}$
重新写最优化问题：
$\min_{w,b}\ \frac{1}{2}||w||^2 \\ s.t. \ y_i(w*x_i + b) - 1 \geq 0, \ i=1,2,...,N$
求解之后，得到：超平面+分类决策函数
最大间隔分离超平面的存在性及唯一性
存在性：数据集线性可分，而且目标函数有下界，因此有解。而且，如果 $w = 0$ 则无法单纯依靠系数 $b$ 得到分类，因此解满足 $\neq 0$
唯一性：分别证明 $w$ 以及 $b$
（1）证明 $w$ ：
假设有两个 $w$ 符合要求，即 $w_1,b_1)$ 以及 $w_2,b_2)$ ；
因为取最优的最小值，得到 $w_1||=||w_2||=const$ ；
令 $\frac{w_1 + w_2}{2}$ 以及 $\frac{b_1 + b_2}{2}$ ，则没法达到最小值，有 $\leq ||w||$ ；
依靠模的计算，有 $\leq \frac{1}{2}||w_1|| + \frac{1}{2}||w_2|| = c$ ；
（夹逼）因此有 $\frac{1}{2}||w_1|| + \frac{1}{2}||w_2||$ ， $w_1,w_2$ 角度为0，方向相同， $w_1 = \lambda w_2, |\lambda|=1$ ， $\lambda$ 取-1时，则 $w = 0$ 不满足存在性，应该取1，则有 $w_1 = w_2$
（2）证明 $b$ ：

7.1.4 学习的对偶算法

笔者疑问：对偶问题求解相比原始问题有何优势？

引子1：拉格朗日

原始问题：各式子均可微
$\min_{x \in R^n}{f(x)} \\ s.t. \ {c_i(x) \leq 0} \\ h_j(x) = 0$
引进拉格朗日函数: $\alpha_i \geq 0$
$L(x,\alpha, \beta) = f(x) + \sum_{i=1}^{k}{\alpha_i c_{i}(x)} + \sum_{i=1}^{l}{\beta_j h_{j}(x)}$
引入 $x$ 的函数：注意max底下并没有x，说明其中的 $f (x)$ 项并没有起到最大化效果。 $p$ 表示原始问题。
$\theta_P(x) = \max_{\alpha, \beta; \alpha \geq 0}{L(x,\alpha,\beta)}$
换言之：
假设 $x$ 引发两个条件，即存在 $i, j$ 使得 $c_i(x) \leq 0 ,h_j(x) = 0$ 无法成立，因为 $\alpha_i, \beta_j -> +\infty$ 则
$\max_{\alpha, \beta; \alpha \geq 0} \sum_{i=1}^{k}{\alpha_i c_{i}(x)} = +\infty \\ \max_{\alpha, \beta; \alpha \geq 0} \sum_{i=1}^{l}{\beta_j h_{j}(x)} = +\infty$
因此有：
$\theta_P(x) = \max_{\alpha, \beta; \alpha \geq 0}{L(x,\alpha,\beta)}= \begin{cases} f(x), Conditions Satisfied\\ +\infty, NotSatisfied \\ \end{cases}$
考虑原始问题 $\min_{x \in R^n}{f(x)}$ 则有“拉格朗日极小极大问题”：
$\min_{x \in R^n}{f(x)}=\min_{x \in R^n}{\theta_P(x) }=\min_{x\in R^n}\max_{\alpha, \beta; \alpha \geq 0}{L(x,\alpha,\beta)}$
原始问题的值： $p^* = \min_{x \in R^n}{\theta_P(x) }$

引子2：拉格朗日对偶问题

“拉格朗日极大极小问题”（ $m i n, m a x$ 的下标一样需要跟进）：
$\max_{\alpha, \beta; \alpha \geq 0 }{\theta_D(\alpha, \beta) }=\max_{\alpha, \beta; \alpha \geq 0} \min_{x \in R^n}{L(x,\alpha,\beta)}$
对偶问题的值： $d^* = \max_{\alpha, \beta; \alpha \geq 0 }{\theta_D(\alpha, \beta) }$
对偶问题和原始问题的关系：
（1）
$\theta_D(\alpha, \beta) = \min_{x \in R^n}{L(x,\alpha,\beta)} \leq L(x,\alpha,\beta) \\ \leq \max_{\alpha, \beta; \alpha \geq 0}{L(x,\alpha,\beta)} = \theta_P(x)$
即有， $\theta_D(\alpha, \beta) \leq \theta_P(x)$
所以两者的最优值有大小关系， $d^* = \max_{\alpha, \beta; \alpha \geq 0 }{\theta_D(\alpha, \beta) } \leq \min_{x \in R^n}{\theta_P(x) }=p^*$

（2） $x^*$ 是原始问题的解， $\alpha^*,\beta^*$ 是对偶问题的解
<— 充分必要条件 —>
KKT条件（图片来自于《统计学习方法-李航》）
拉格朗日函数要对 $x,\alpha,\beta$ 求导得0，其他满足于前文所示条件。
在这里插入图片描述

如何进行学习的对偶算法

由7.1.3我们得到应该求得的最优化凸二次规划问题

$\min_{w,b}\ \frac{1}{2}||w||^2 \\ s.t. \ y_i(w*x_i + b) - 1 \geq 0, \ i=1,2,...,N$

构造拉格朗日函数：在此拉格朗日中的 $x$ 为问题中的 $\omega, b$

$L(\omega,b, \alpha, \beta) = f(\omega,b) + \sum_{i=1}^{k}{\alpha_i c_{i}(\omega,b)} + \sum_{i=1}^{l}{\beta_j h_{j}(\omega,b)} \\ = \frac{1}{2}||w||^2 + \sum_{i=1}^{k}{\alpha_i (1 - y_i(w*x_i + b))} \\ = \frac{1}{2}||w||^2 - \sum_{i=1}^{k}{\alpha_i y_i(w*x_i + b)} + \sum_{i=1}^{k}{\alpha_i * 1}$

通过对偶问题来求解，极大极小问题

$\max_{\alpha; \alpha \geq 0} \min_{\omega b \in R^n}{L(\omega,b,\alpha)}$

（1）先求解 $\min_{\omega b \in R^n}{L(\omega,b,\alpha)}$ : 对于 $\omega,b$ 求导

$\nabla_{\omega} L(\omega,b,\alpha) = w-\sum_{i=1}^{N}{\alpha_i y_ix_i }=0 \\ \nabla_{b} L(\omega,b,\alpha) = - \sum_{i=1}^{N}{\alpha_i y_i} = 0$

所以，得到目标的表达式和另外的条件。如果看下表，则 $\omega$ 不应该按照如下公式表示， $x_i$ 需要转置。（但暂时不看向量的积的维度问题）

$y_i$	( $w$	$x_i$	+	$b$ )
1*1	1*d	d*1		1*1

$\sum_{i=1}^{N}{\alpha_i y_ix_i } \\ \sum_{i=1}^{N}{\alpha_i y_i} = 0$

将其代入 $L(\omega,b,\alpha)$ 之中，得到

$L(\omega,b,\alpha) = \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) \\ -\sum_{i=1}^{N} \alpha_i y_i ((\sum_{j=1}^{N} \alpha_j y_j x_j) \cdot x_i +b) + \sum_{i=1}^{N} \alpha_i \\ =\sum_{i=1}^{N} \alpha_i - \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j)$

得到下一步的输入物：

$\min_{\omega, b \in R^n}{L(\omega,b,\alpha)} = \sum_{i=1}^{N} \alpha_i - \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j)$

（2）开始求极大极小中的极大问题，

$\max_{\alpha; \alpha \geq 0} \min_{\omega b \in R^n}{L(\omega,b,\alpha)}\\ = \max_{\alpha} \sum_{i=1}^{N} \alpha_i - \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) \\ s.t. \ \sum_{i=1}^{N}{\alpha_i y_i} = 0\\ \alpha_i \geq 0$

转化为极小问题

$\min_{\alpha; \alpha \geq 0} {L(\omega,b,\alpha)}\\ = \min_{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) -\sum_{i=1}^{N} \alpha_i\\ s.t. \ \sum_{i=1}^{N}{\alpha_i y_i} = 0\\ \alpha_i \geq 0$

支持向量

将训练数据集中对应于 $\alpha_i >0$ 的样本点 $x_i, y_i)$ 的实例 $x_i \in R^n$ 称为支持向量。由于存在KKT条件， $\alpha_i (y_i (w * x_i +b)-1)=0$ ，需要解同时符合

$y_i (w * x_i +b)=1$

因此 $x_i$ 是在间隔边界上。

7.2 线性SVM与软间隔最大化

7.2.1 线性SVM（不是线性可分）

由于现实中大多数样例都不是线性可分的，所以需要“松弛变量”来令SVM得以“纳错”以正确分类。

【重点】在于之前的不等式约束条件不能得到满足。线性不可分意味着，一些样本点无法满足几何间隔大于等于1的情况。

因此，纳入新的“松弛变量”改变原先的不等式约束条件，得到式子：
$y_i*(\omega * x_i + b) \geq 1- \xi_i$
相应的学习问题依旧为凸二次规划：
$\min_{w,b}\ \frac{1}{2}||w||^2 + C\sum_{i=1}^{N} \xi_i \\ s.t. \ y_i(w*x_i + b) \geq 1-\xi_i, \ i=1,2,...,N \\ \xi_i \geq 0 \tag{7.32}$
之后得到SVM为 $(\omega^* \cdot x_i + b^*)$ ，其中 $\omega^*$ 有唯一解， $b^*$ 有区间解，两者为规划问题的解。

7.2.2 学习的对偶算法推导

根据7.32公式写出拉格朗日方程
$L(w,b,\xi,\alpha,\mu) = f(w,C,\xi_i) + \sum_{i=1}^{k}{\alpha_i c_{i}(x)} + \sum_{i=1}^{l}{\beta_j h_{j}(x)} \\ = \frac{1}{2}||w||^2 + C\sum_{i=1}^{N} \xi_i - \sum_{i=1}^{N}{\alpha_i ( \ y_i(w*x_i + b)-1+\xi_i)} - \sum_{i=1}^{N}{\mu_i \xi_i} \\ where, \alpha \geq 0, \mu \geq 0$
由于求极大极小问题，所以先求极小问题。 $\min_{w,b,\xi} \ L(w,b,\xi,\alpha,\mu)$
求导
$\nabla_{\omega} L(\omega,b,\xi_i,\alpha)= w- \sum_{i=1}^{N}{\alpha_i y_ix_i }=0\\ \nabla_{\xi_i} L(\omega,b,\xi_i,\alpha) = C-\alpha_i - \mu_i =0\\ \nabla_{b} L(\omega,b,\xi_i,\alpha)=-\sum_{i=1}^{N}{\alpha_i y_i}=0 \\$
得到若干条件：
$w=\sum_{i=1}^{N}{\alpha_i y_ix_i }\\ C = \alpha_i + \mu_i \\ \sum_{i=1}^{N}{\alpha_i y_i}=0 \\$
重新代入 $\min \ L(w,b,\xi,\alpha,\mu)$ 之中：
$L(w,b,\xi,\alpha,\mu) \\ =\frac{1}{2}||w||^2 + C\sum_{i=1}^{N} \xi_i - \sum_{i=1}^{N}{\alpha_i ( \ y_i(w*x_i + b)-1+\xi_i)} - \sum_{i=1}^{N}{\mu_i \xi_i} \\ = \frac{1}{2} \sum_{i=1}^{N}{\alpha_i y_ix_i }\sum_{j=1}^{N}{\alpha_j y_j x_j } +\sum_{i=1}^{N} (\alpha_i + \mu_i)\xi_i +\sum_{i=1}^{N}{\alpha_i} \\ -\sum_{i=1}^{N}{\alpha_i y_i (\sum_{j=1}^{N}{\alpha_j y_j x_j } ) x_i } - \sum_{i=1}^{N}{\mu_i \xi_i} - \sum_{i=1}^{N}{\alpha_i \xi_i} \\ = -\frac{1}{2} \sum_{i=1}^{N}{\alpha_i y_ix_i }\sum_{j=1}^{N}{\alpha_j y_j x_j } +\sum_{i=1}^{N}{\alpha_i} \\ =-\frac{1}{2} \sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i y_i \alpha_j y_j (x_i \cdot x_j)+\sum_{i=1}^{N}{\alpha_i}$
对于 $\min \ L(w,b,\xi,\alpha,\mu)$ 求在 $\alpha$ 上的极大问题：
$\max_{\alpha}\min_{w,b,\xi} \ L(w,b,\xi,\alpha,\mu) \\ =-\frac{1}{2} \sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i y_i \alpha_j y_j (x_i \cdot x_j)+\sum_{i=1}^{N}{\alpha_i} \\ s.t. \ C = \alpha_i + \mu_i \\ \sum_{i=1}^{N}{\alpha_i y_i}=0 \\ \alpha_i \geq 0\\ \mu_i \geq 0\\$
消去 $\mu_i$ 限制条件可以写为：
$\sum_{i=1}^{N}{\alpha_i y_i}=0 \\ 0 \leq \alpha_i \leq C$
【小结】相对于“线性可分SVM”，该节所求得的规划问题方程，只是多了一个对 $\alpha$ 的限制（小于C）。
【定理7.3】得到 $\alpha_i^*,i=1,2,...,N(\alpha \leq C)$ 之后，求出来的解是：可以看出 $w$ 是唯一解， $b$ 有可能有多个解，实际计算时可以取在所有符合条件的样本点上的平均值。
$w^*=\sum_{i=1}^{N}{\alpha_i^* y_ix_i }\\ b= y_j - w^* x_j = y_j - \sum_{i=1}^{N}{\alpha_i^* y_i (x_i \cdot x_j)}$

7.2.3 支持向量

线1：支持向量本来应该到超平面的距离1（因为经过了规范化）。
线2： $\xi_i$ ，即所允许的误差，“软间隔”的含义；同时是它到间隔边界的函数距离。
线3： $1-\xi_i$ ，即最开始的 $y_i*(\omega * x_i + b) \geq 1- \xi_i$ 条件。
因此，如《李航-统计学习方法》原文及图片所示，支持向量 $x_i$ 到达间隔边界的几何距离（经过规范化）为 $\frac{\xi_i}{||w||}$ 。