支持向量机

最新推荐文章于 2024-06-17 00:00:00 发布

qq_46458164

最新推荐文章于 2024-06-17 00:00:00 发布

阅读量219

点赞数

分类专栏：机器学习西瓜书

本文链接：https://blog.csdn.net/qq_46458164/article/details/112990330

版权

机器学习西瓜书专栏收录该内容

6 篇文章 0 订阅

订阅专栏

支持向量机

作者： $l i t t l e - x u$

时间： $2021 / 1 / 20$

间隔与支持向量

最大间隔超平面

我们有样本训练集 $\{(x_1,y_1),(x_2,y_2),\cdots,(x_i,y_i)\},y_i \in \{-1,+1\}$ ，不妨我们用正例描述 $+ 1$ ，负例来描述 $- 1$ ,在高维度我们寻找一个平面将将正例和负例划分开来

在这里插入图片描述

从二维扩展到多维空间中时，将 $D_1$ 和 $D_2$ 完全正确地划分开的 $w x + b = 0$ 就成了一个超平面。

那怎么去确定这样的鲁棒性平面呢?

正例有边界线，负例也有边界，将最外围的点连线，就变成一个凸集。也就是他的边界线，与我们超平面相切的

两类样本分别分割在该超平面的两侧
超平面到正例和反例的边界线距离之和最大

此处细品超平面到边界线距离：训练集 $T$ 中正例(负例)到超平面 $(w, b)$ 关于 $T$ 中所有样本点 $x_i,y_i)$ 的几何间隔最小值

几何间隔

$\begin{aligned} \gamma_i=y_i(\cfrac{wx_i+b}{\|w\|}) \end{aligned}$

疑惑：此处 $y_i$ 是来捣蛋的？

解疑：

$\begin{aligned} \begin{cases} w^Tx_i+b \geq +1(正例边界) ， \quad y_i=+1 \\ w^Tx_i+b \leq -1(负例边界) ， \quad y_i=-1 \\ \end{cases} \end{aligned}$

这个又是是什么嘞？

在这里插入图片描述

$w x + b = 1$ 是我们正例边界切平面，我们将正例中任意一个样本 $x_正,y_正)$ 带入 $y = w x + b - 1$ 得到 $\geq 0$ ,即 $\geq 0$ ,负例也是如此

由小学知识可知，距离是没有负数的。当 $y_i$ 为正例时， $\begin{aligned}\gamma_i=(\cfrac{wx_i+b}{\|w\|})\end{aligned}$ ，当 $y_i$ 为反例时， $\begin{aligned}\gamma_i=-(\cfrac{wx_i+b}{\|w\|})\end{aligned}$ ，所以我们这里用 $y_i$ 抵消 $+ 1, - 1$ 造成的影响

范数科普

平面 $w_1x+w_2y+b=0$ ,数据 $x_0,y_0)$ 到平面距离

$\begin{aligned} d & =\dfrac{\lvert w_1x_0 + w_2y_0 + b \rvert}{\sqrt{w_1^2 + w_2^2}} \\ & = \dfrac{\lvert w_1x_0 + w_2y_0 + b \rvert}{\|w\|} \end{aligned}$

目标规划

此处细品超平面到边界线距离：训练集 $T$ 中正例(负例)到超平面 $(w, b)$ 关于 $T$ 中所有样本点 $x_i,y_i)$ 的几何间隔至少是 $\gamma$

$\begin{aligned} & \mathop{max}\limits_{w,b} \quad \gamma_正 + \gamma_负 \\ & s.t. \quad y_i(\dfrac{wx_i+b}{ \| x \| }) \geq \gamma_i \end{aligned}$

由解疑中的边界切线 $\pm 1$ 转化成了

$\begin{aligned} & \mathop{max}\limits_{w,b} \quad \cfrac{1}{ \| w \|} +\cfrac{1}{ \| w \|}= \cfrac{2}{ \| w \|} \\ & = s.t. \quad y_i(w^Tx_i+b) \geq 1, \quad i=1,2,\cdots,m. \\ & s.t. \quad\mathop{min} \quad y_i(w^Tx_i+b) = 1, \quad i=1,2,\cdots,m. \end{aligned}$

由线性规划在约束条件 $s . t .$ 下让 $w$ 取得最小值，等价于

$\begin{aligned} & \mathop{min}\limits_{w,b} \quad \cfrac{1}{ 2}{ \| w \|}^2 \\ & s.t. \quad y_i(w^Tx_i+b) \geq 1, \quad i=1,2,\cdots,m. \end{aligned}$

对偶问题

强对偶关系

$\begin{aligned} & \mathop{min}\limits_{w,b} \quad f(x) = \cfrac{1}{ 2}{ \| w \|}^2 \\ & s.t. \quad y_i(w^Tx_i+b) \geq 1, \quad i=1,2,\cdots,m. \end{aligned}$

如何像你介绍这么精妙绝伦的结论呢？

我们对每条约束添加拉格朗日乘子 $\lambda_i$

我们不妨定义,令 $g(w,b) = 1- y_i(w^Tx_i+b)$ 。于是 $L(w,b.\lambda)$ 先生诞生了

$\begin{aligned} L(w,b,\lambda) & = f(w,b) + \sum_{i=1}^{m}\lambda_ig(w,b) \end{aligned}$

$L(w,b,\lambda)$ 先生本来也是个正常人 $f (w, b)$ ，小时候因为父亲离异，酗酒度日。家暴孩子导致人格分裂。损失一部分 $\sum_{i=1}^{m}\lambda_ig(w,b)$ 😄😆

因为家庭背景原因， $L(w,b,\lambda)$ 从小就与正常孩子不一样。早早社会工作了。整个人事业生活都到了低谷。从此变成了另一个模样 $\theta(\lambda)$

$\begin{aligned} \theta(\lambda) = \mathop{min}\limits_{w,b}L(w,b,\lambda) \end{aligned}$

$\theta(w,b)$ 是一个用 $\lambda$ 表示而 $w, b$ 最小的式子。后来啊。他遇到了令他心动的女孩$ f(w^,b)$。喜欢一个人第一感觉往往是自卑，感觉配不上。

如果 $w^,b^$ 是原问题的解，而 $\lambda^$ 是对偶问题的解，则有 $f(w^,b^)\geq \theta(\lambda^)$

证明

$\begin{aligned} \theta(\lambda^*) & = \mathop{min}\limits_{w,b}L(w,b,\lambda^*) \\ & \leq L(w^*,b^*,\lambda^*) \\ & = f(w^*,b^*) + \sum_{i=1}^{m}\lambda_i^*g(w^*,b^*) \end{aligned}$

KKT条件

KKT丘比特

$\begin{aligned} \begin{cases} \lambda_i \geq 0 \\ 1-y_i(w^Tx_i+b) \leq 0 \\ \lambda_i(1-y_i(w^Tx_i+b)) = 0 \\ \bigtriangledown_\mathbf{w}L(w,b,\lambda) = 0 \\ \bigtriangledown_\mathbf{b}L(w,b,\lambda) = 0 \\ \bigtriangledown_\mathbf{\lambda}L(w,b,\lambda) = 0 \\ \end{cases} \\ \end{aligned}$

于是我们 $\theta(\lambda^)$ 开始励精图治。从一个每天低头垂气的人变成一个乐光阳光向上的男孩。由 $\leq$ 变为 $=$ 。逐渐变成了最初模样 $L(w,b,\lambda)$ 。开始向 $f(w^,b^)$ 小姐送送小礼物。但是这还不够 $f(w^,b^) + \sum_{i=1}^{m}\lambda_i^g(w^,b^)$ 。人家还有精神病呢，人格分裂。时不时就会发病。人家不接受他。后来 $L(w,b,\lambda)$ 所做所为感动了 $K K T$ 丘比特。😆。 $K K T$ 丘比特决定为他消除黑历史,。令 $\sum_{i=1}^{m}\lambda_i^g(w^,b^*)=0$ .治好他的病。同时让他走上巅峰。令 $\begin{cases}\bigtriangledown_\mathbf{w}L(w,b,\lambda) = 0 \\ \bigtriangledown_\mathbf{b}L(w,b,\lambda) = 0 \\\end{cases}$ , $L(w,b,\lambda,)$ 才能取得极值

所以我们我们 $\theta(\lambda^)$ 先生在 $K K T$ 丘比特帮助下终于追到了 $f(w^,b^*)$ 小姐

$\begin{aligned} \begin{cases} \lambda_i \geq 0 \\ 1-y_i(w^Tx_i+b) \leq 0 \\ \lambda_i(1-y_i(w^Tx_i+b)) = 0 \\ \end{cases} \\ \end{aligned}$

总结：如果没有丘比特。那请像 $\theta(\lambda^*)$ 先生一样死不要脸。

不等式约束优化

$L (w, b . a)$ 开始逐渐变成一个有能力有担当的青年了。

$\begin{aligned} L(w,b,a) & = \frac{1}{2}\| w \|^2 + \sum_{i=1}^m \lambda_i(1-y_i(w^T x_i+b)) \\ & = \frac{1}{2} \| w \|^2 + \sum_{i=1}^m (\lambda_i - \lambda_iy_i w^T x_i-\lambda_i y_i b)\\ & =\frac{1}{2}w^Tw + \sum_{i=1}^m \lambda_i -\sum_{i=1}^m \lambda_iy_i w^Tx_i-\sum_{i=1}^m \lambda_iy_ib \end{aligned}$

后来 $L(w,b,\lambda)$ 和 $f(w^,b^)$ 小姐发生微妙的关系。对 $\boldsymbol{w}$ 和 $b$ 分别求偏导数并令其等于 $0$

$\begin{aligned} & \frac {\partial L}{\partial w}=\frac{1}{2} \times2 \times w + 0 - \sum_{i=1}^{m}a_i y_i x_i - 0= 0 \Longrightarrow w = \sum_{i=1}^{m} \lambda_i y_i x_i \\ & \frac {\partial L}{\partial b}=0+0-0-\sum_{i=1}^{m} \lambda_i y_i =0 \Longrightarrow \sum_{i=1}^{m} \lambda_i y_i = 0 \end{aligned}$

后来啊他儿子诞生了 $\sum_{i=1}^{m} \lambda_i y_i = 0$ 因此我们得到一个新的约束，并且带入 $\boldsymbol{w}$ 和 $b$ 分别求偏导数并令其等于 $0$ 的部分

$\begin{aligned} & \mathop{min}\limits_{w,b} \quad f(x) = \cfrac{1}{ 2}{ \| w \|}^2 \\ & s.t. \quad y_i(w^Tx_i+b) \geq 1, \quad i=1,2,\cdots,m. \end{aligned}$

最终组建了一个新家庭

$\begin{aligned} & \mathop{max}\limits_{\lambda} \sum_{i=1}^m a_i - \frac{1}{2}\sum_{i = 1}^m \sum_{j=1}^m \lambda_i \lambda_j y_i y_j x_i x_j \\ & s.t. \quad \begin{cases} \lambda_i \geq 0 \\ \sum \limits_{i=1}^{n} \lambda_i y_i=0 \end{cases} \end{aligned}$

分类决策函数

由 $K K T$ 丘比特可知

若 $\lambda_i(1-y_i(w^Tx_i+b)) = 0$ ， $\lambda_i \neq 0$ 时候， $1-y_i(w^Tx_i+b)=0$ ，若 $1-y_i(w^Tx_i+b) \neq 0$ ，那么 $\lambda_i = 0$ ，他们俩松弛互补，对求解 $\frac{1}{2}\| w \|^2 + \sum_{i=1}^m \lambda_i(1-y_i(w^T x_i+b))$ 没有什么本质影响

解得 $L(w,b,\lambda)$ 中 $\lambda_i$ 后带入

$\begin{aligned} w^* & = \sum_{i=1}^{N} \lambda_i^* y_i x_i \\ b^* & = y_j - \sum_{i=1}^{N}a_i^*y_i(x_i x_j) \end{aligned}$

超平面为

$\begin{aligned} \sum_{i=1}^{N}a_i^*y_i(x \cdot x_i) + b^*=0 \end{aligned}$

分类决策函数

$\begin{aligned} f(x) = sign\left(\sum_{i=1}^{N}a_i^*y_i(x \cdot x_i) + b^* \right) \end{aligned}$

根据KKT条件，我们可以对 $\alpha_i$ 的取值进行讨论，并得出支持向量机一个重要结论：训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量(边界)有关。

SMO优化

待补充

核函数

升维

我们在训练一些样本不是线性可分。但是我们可以从高维特征空间使得样本可分。

简而言之就是把 $X$ 提高维度。令 $\phi(x)$ 表示 $X$ 从低维映射到高维的特征向量。

$\begin{aligned} f(x) = w^T \phi(x) + b \end{aligned}$

之前的模型转化为了

$\begin{aligned} & \mathop{max}\limits_{\lambda} \sum_{i=1}^m \lambda_i - \frac{1}{2}\sum_{i = 1}^m \sum_{j=1}^m \lambda_i \lambda_j y_i y_j x_i x_j \\ & s.t. \quad \begin{cases} \lambda_i \geq 0 \\ \sum \limits_{i=1}^{n} \lambda_i y_i=0 \end{cases} \end{aligned}$

由于涉及特征空间内积计算。我们用核函数 $K(x_i,x_j)=\phi(x_i)\phi(x_j)$ 替代

对偶问题目标函数变为

$\begin{aligned} W(\lambda) = \sum_{i=1}^m \lambda_i - \frac{1}{2}\sum_{i = 1}^m \sum_{j=1}^m \lambda_i \lambda_j y_i y_j x_i x_j \\ \end{aligned}$

求解后分类决策式子变为

$\begin{aligned} f(x) & = sign\left(\sum_{i=1}^{N}a_i^*y_i\phi (x) \cdot \phi(x_i) + b^* \right) \\ & = sign\left(\sum_{i=1}^{N}a_i^*y_iK(x_i,x) + b^* \right) \end{aligned}$

核函数

名称	表达式	参数
线形核	$k(x_i,x_j) = x_i^T x_j$
多项核	$k(x_i,x_j) = (x_i^T x_j)^d$	$d\geq1$ 为多项式的次数
高斯核	$k(x_i,x_j) = exp(-\cfrac{\\|x_i-x_j\\|^2}{2\sigma^2})$	$\sigma >0$ 为高斯核带宽
拉普拉斯核	$k(x_i,x_j) = exp(-\cfrac{\\|x_i-x_j\\|^2}{\sigma})$	$\sigma > 0$
Sigomid核	$k(x_i,x_j) = tanh(\beta x_i^Tx_j+\theta)$	$t a n h$ 为双曲线正切函数， $\beta > 0,\theta< 0$

例题

假设输入空间 $\mathcal{R}^2$ ，核函数 $K(x,z) = (x,z)^2$ ，试图找出相关特征空间 $\mathcal{H}$ 和映射 $\phi(x):\mathcal{R}^2 \rightarrow \mathcal{H}$ .

解：取特征空间 $\mathcal{H}=\mathcal{R}^3$ ，记 $x=(x_1,x_2)^T，z=(z_1,z_2)^T$ ，因为 $(x\cdot z)^2=(x_1z_1+x_2z_2)^2=(x_1z_1)^2+2x_1x_2z_1z_2+(z_1z_2)^2$ ，

所以我们取映射

$\begin{aligned} \phi(x) = (x_1^2,\sqrt{2}x_1x_2,x_2^2)^T \end{aligned}$

验证 $\phi(x)\cdot\phi(z) = (x\cdot z)^2 = K(x,z)$

还可以取映射

$\begin{aligned} \phi(x) = \cfrac{1}{\sqrt2}(x_1^2-x_2^2,2x_1x_2,x_1^2+x_2^2)^T \end{aligned}$

同样可验证 $\phi(x)\cdot\phi(z) = (x\cdot z)^2 = K(x,z)$

软间隔与正则化

损失函数

现实生活中，数据没有那么理想，存在一些噪声。很难确定一个核函数使训练样本在特征空间中线性可分，如下图

在这里插入图片描述

于是我们改变优化对象

$\begin{aligned} \mathop{min}\limits_{w,b} \ \cfrac{1}{2} \| w \|^2 + loss \end{aligned}$

对loss解释:

假如有噪声的的话，我们所求解的 $w$ 斜率会发生偏离，我们加上一定的惩罚项使得他的偏离变小，类似正则化一样的作用。

我们可以采取 $L_{0/1}$ 是 $0, 1$ 损失函数

$\begin{aligned} & \mathop{min}\limits_{w,b} \ \cfrac{1}{2} \| w \|^2 + C\sum_{i=1}^{m} L_{0/1}(1 - y_i(w^Tx_i+b)) \\ & L_{0/1}(z) \begin{cases} 1,\quad if \quad z \leq 0; \\ 2,\quad otherwise. \end{cases} \end{aligned}$

其中 $z=y_i(w^Tx_i+b)$ ，西瓜书感觉有点小问题原书是 $\mathop{min}\limits_{w,b} \ \cfrac{1}{2} \| w \|^2 + C\sum_{i=1}^{m} L_{0/1}(y_i(w^Tx_i+b) - 1)$ 。因为有噪声点时候,后半截是-负数，我们这里是求min。联想正则化

这里 $C$ 是惩罚参数，使 $\cfrac{1}{2}\| w\|^2$ 尽量小。即间隔间隔尽量大。同时使得误分类点个数尽量小。 $C$ 是调和两者系数。

$0, 1$ 求解不方便非连续，性质不好舍去，我们打算寻找更好的替代

Conception

常见损失函数

$\begin{aligned} & hinge损失：L_{hinge}(z) = max(0,1-z) \\ & 指数损失(exponential \quad loss) =L_{exp}(z)=exp(-z) \\ & 对率损失(logistic \quad loss):L_{log}(z) = log(1 + exp(-z)) \\ \end{aligned}$

之前的 $L_{0/1}$ 损失函数等价合页损失，写法复杂是一种判断非连续的函数

$\begin{aligned} & \mathop{min}\limits_{w,b} \ \cfrac{1}{2} \| w \|^2 + C\sum_{i=1}^{m} max(0,1 - y_i(w^Tx_i+b)) \\ \end{aligned}$

软约束

由于噪声，我们可以引入一个松弛变量 $\varepsilon_i \geq 0$ ，使得函数间隔加上松弛变量 $\varepsilon_i$ 大于等于 $1$

在这里插入图片描述

即边界线向超平面靠近

$\begin{aligned} y_i(wx_i+b) \geq 1- \xi_i \end{aligned}$

当样本满足约束时$(y i f ( x i ) ≥ 1 y_if(x_i)\geq 1)，ξ_i = 0 $（hinge损失也为0）
当样本不满足约束时（ $y_if(x_i)<1,\xi_i>0$ )（hinge损失为 $1 - y i f (x i)$ 也大于 $0$ ））

原始问题变为

$\begin{aligned} & \mathop{min}\limits_{w,b,\varepsilon} \quad \cfrac{1}{2} \| w \|^2 + C\sum_{i=1}^{N} \xi_i \\ & s.t. \quad \begin{cases} \xi_i \geq 0,\quad i=1,2,\cdots,N \\ y_i(wx_i+b) \geq 1-\varepsilon_i,\quad i=1,2,\cdots,N \\ \end{cases} \end{aligned}$

如法炮制对偶问题，由广义拉格朗日乘子法可知

$\begin{aligned} L(w,b,\xi,\alpha,\mu) = \cfrac{1}{2}\| w \|^2 + C\sum_{i=1}^{N}\xi_i - \sum_{i=1}^{N}a_i(y_i(w \cdot x_i + b ) -1 + \xi_i ) - \sum_{i=1}^{N} \mu_i \xi_i \end{aligned}$

令 $L(w,b,\xi,\alpha,\mu)$ 对 $w,b,\xi_i$ 的偏导为 $0$

$\begin{aligned} \bigtriangledown_\mathbf{w}L(w,b,\xi,\alpha,\mu) = w - \sum_{i=1}^{N}a_iy_ix_i = 0 \\ \bigtriangledown_\mathbf{b}L(w,b,\xi,\alpha,\mu)=-\sum_{i=1}^{N}a_iy_i = 0 \\ \bigtriangledown_\mathbf{\xi_i}L(w,b,\xi,\alpha,\mu)=C-a_i-\mu_i = 0 \\ \end{aligned}$

带入解得

$\begin{aligned} \mathop{min}\limits_{w,b,\xi} \ L(w,b,\xi,\alpha,\mu)=\cfrac{1}{2} \sum_{i=1}^{N}\sum_{j=1}^{N} a_ia_jy_iy_j(x_i \cdot x_j) + \sum_{i=1}^{N}a_i \end{aligned}$

在对 $\mathop{min}\limits_{w,b,\xi} \ L(w,b,\xi,\alpha,\mu)$ 求极大即得到对偶问题

$\begin{aligned} & \mathop{max}\limits_{a} \sum_{i=1}^m a_i - \frac{1}{2}\sum_{i = 1}^m \sum_{j=1}^m a_i a_j y_i y_j x_i x_j \\ & s.t. \quad \begin{cases} a_i \geq 0 \\ \sum \limits_{i=1}^{n} a_i y_i=0 \\ \mu_i \geq 0 \\ C-a_i-\mu_i=0 \end{cases} \end{aligned}$

KKT条件

$\begin{aligned} \begin{cases} \alpha_i \geq 0,\quad \mu_i \geq 0, \\ y_if(x_i) - 1 + \xi_i \geq 0, \\ \alpha_i(y_if(x_i)-1+\xi_i) = 0 \\ \xi_i \geq 0, \quad \mu_i\xi_i = 0 \\ \end{cases} \end{aligned}$

- [x] 训练样本，总是 $a_i=0$ 或 $y_if(x_i)=1-\xi_i$ ，若 $a_i=0$ ，该样本对求解 $y_if(x_i)=1-\xi_i$ 支持向量不会产生影响。若 $a_i \geq 0$ ，则说明我们的支持向量就是 $y_if(x_i)=1-\xi_i$ .

- [x] 由 $\cfrac{\partial (w,b,\xi,\alpha,\mu)}{\xi_i}$ 可知 $C=a_i+\mu_i$ ，若 $a_i<C$ ，则 $\mu_i > 0$ ，则 $\xi_i=0$ ，该样本落在边界，若 $a_i=C$ ，则 $\mu_i = 0$ ，则 $\xi_i \leq 1$ ，该样本落在超平面。则 $\xi_i > 1$ ，该样本分类错误，

由此看出，软间隔支持向量最终模型仅与支持向量有关，即通过采用 $h i n g e$ 损失函数保持了稀疏性(指什么？)

Merits and Demerits

若是使用对率损失函数，几乎就得到对率回归模型，通常情况下性能相当。对率回归主要是输出具有自然意义的概率意义。预测标记同时给出了概率。支持向量机不具有概率意义，要经过特殊处理。对率回归能多分类。支持向量机要推广。支持向量机合页损失的 $0$ (没有越界的正常样本)的解是离散的。也就是稀疏性。对率损失是连续的光滑递减函数。对率回归依赖更多训练样本。预测开销更大

核方法

就是 $\phi(x)$ 替代 $x$ ，映射到高维。

待补充

习题

周志华《机器学习》课后习题解答系列（七）：Ch6 - 支持向量机

qq_46458164

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
支持向量机

支持向量机作者：little−xulittle-xulittle−xu时间：2021/1/202021/1/202021/1/20间隔与支持向量最大间隔超平面我们有样本训练集{(x1,y1),(x2,y2),⋯ ,(xi,yi)},yi∈{−1,+1}\{(x_1,y_1),(x_2,y_2),\cdots,(x_i,y_i)\},y_i \in \{-1,+1\}{(x1,y1),(x2,y2),⋯,(xi,yi)},yi∈{−1,+1}，不妨我们用正例描述+1+1+1，负例来
复制链接

扫一扫

专栏目录

支持向量机

支持向量机

作者： l i t t l e − x u little-xu little−xu

时间： 2021 / 1 / 20 2021/1/20 2021/1/20

间隔与支持向量

最大间隔超平面

从二维扩展到多维空间中时，将 D 1 D_1 D1​和 D 2 D_2 D2​完全正确地划分开的 w x + b = 0 wx+b=0 wx+b=0就成了一个超平面。

那怎么去确定这样的鲁棒性平面呢?

正例有边界线，负例也有边界，将最外围的点连线，就变成一个凸集。也就是他的边界线，与我们超平面相切的

此处细品超平面到边界线距离：训练集 T T T中正例(负例)到超平面 ( w , b ) (w,b) (w,b)关于 T T T中所有样本点 ( x i , y i ) (x_i,y_i) (xi​,yi​)的几何间隔最小值

几何间隔

疑惑：此处 y i y_i yi​是来捣蛋的？

解疑：

这个又是是什么嘞？

w x + b = 1 wx+b=1 wx+b=1是我们正例边界切平面，我们将正例中任意一个样本 ( x 正 , y 正 ) (x_正,y_正) (x正​,y正​)带入 y = w x + b − 1 y=wx+b-1 y=wx+b−1得到 y ≥ 0 y \geq 0 y≥0,即 w x + b − 1 ≥ 0 wx+b-1 \geq 0 wx+b−1≥0,负例也是如此

范数科普

平面 w 1 x + w 2 y + b = 0 w_1x+w_2y+b=0 w1​x+w2​y+b=0,数据 ( x 0 , y 0 ) (x_0,y_0) (x0​,y0​)到平面距离

目标规划

此处细品超平面到边界线距离：训练集 T T T中正例(负例)到超平面 ( w , b ) (w,b) (w,b)关于 T T T中所有样本点 ( x i , y i ) (x_i,y_i) (xi​,yi​)的几何间隔至少是 γ \gamma γ

由解疑中的边界切线 w x + b = ± 1 wx+b= \pm 1 wx+b=±1转化成了

由线性规划在约束条件 s . t . s.t. s.t.下让 w w w取得最小值，等价于

对偶问题

强对偶关系

如何像你介绍这么精妙绝伦的结论呢？

我们对每条约束添加拉格朗日乘子 λ i \lambda_i λi​

我们不妨定义,令 g ( w , b ) = 1 − y i ( w T x i + b ) g(w,b) = 1- y_i(w^Tx_i+b) g(w,b)=1−yi​(wTxi​+b)。于是 L ( w , b . λ ) L(w,b.\lambda) L(w,b.λ)先生诞生了

L ( w , b , λ ) L(w,b,\lambda) L(w,b,λ)先生本来也是个正常人 f ( w , b ) f(w,b) f(w,b)，小时候因为父亲离异，酗酒度日。家暴孩子导致人格分裂。损失一部分 ∑ i = 1 m λ i g ( w , b ) \sum_{i=1}^{m}\lambda_ig(w,b) ∑i=1m​λi​g(w,b)😄😆

因为家庭背景原因， L ( w , b , λ ) L(w,b,\lambda) L(w,b,λ)从小就与正常孩子不一样。早早社会工作了。整个人事业生活都到了低谷。从此变成了另一个模样 θ ( λ ) \theta(\lambda) θ(λ)

θ ( w , b ) \theta(w,b) θ(w,b)是一个用 λ \lambda λ表示而 w , b w,b w,b最小的式子。后来啊。他遇到了令他心动的女孩$ f(w*,b*)$。喜欢一个人第一感觉往往是自卑，感觉配不上。

如果 w ∗ , b ∗ w^*,b^* w∗,b∗是原问题的解，而 λ ∗ \lambda^* λ∗是对偶问题的解，则有 f ( w ∗ , b ∗ ) ≥ θ ( λ ∗ ) f(w^*,b^*)\geq \theta(\lambda^*) f(w∗,b∗)≥θ(λ∗)

证明

KKT条件

KKT丘比特

所以我们我们 θ ( λ ∗ ) \theta(\lambda^*) θ(λ∗)先生在 K K T KKT KKT丘比特帮助下终于追到了 f ( w ∗ , b ∗ ) f(w^*,b^*) f(w∗,b∗)小姐

总结：如果没有丘比特。那请像 θ ( λ ∗ ) \theta(\lambda^*) θ(λ∗)先生一样死不要脸。

不等式约束优化

L ( w , b . a ) L(w,b.a) L(w,b.a)开始逐渐变成一个有能力有担当的青年了。

后来 L ( w , b , λ ) L(w,b,\lambda) L(w,b,λ)和 f ( w ∗ , b ∗ ) f(w^*,b^*) f(w∗,b∗)小姐发生微妙的关系。对 w \boldsymbol{w} w和 b b b分别求偏导数并令其等于 0 0 0

后来啊他儿子诞生了 ∑ i = 1 m λ i y i = 0 \sum_{i=1}^{m} \lambda_i y_i = 0 ∑i=1m​λi​yi​=0因此我们得到一个新的约束，并且带入 w \boldsymbol{w} w和 b b b分别求偏导数并令其等于 0 0 0的部分

最终组建了一个新家庭

分类决策函数

由 K K T KKT KKT丘比特可知

解得 L ( w , b , λ ) L(w,b,\lambda) L(w,b,λ)中 λ i \lambda_i λi​后带入

超平面为

分类决策函数

根据KKT条件，我们可以对 α i \alpha_i αi​的取值进行讨论，并得出支持向量机一个重要结论：训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量(边界)有关。

SMO优化

核函数

升维

我们在训练一些样本不是线性可分。但是我们可以从高维特征空间使得样本可分。

简而言之就是把 X X X提高维度。令 ϕ ( x ) \phi(x) ϕ(x)表示 X X X从低维映射到高维的特征向量。

之前的模型转化为了

由于涉及特征空间内积计算。我们用核函数 K ( x i , x j ) = ϕ ( x i ) ϕ ( x j ) K(x_i,x_j)=\phi(x_i)\phi(x_j) K(xi​,xj​)=ϕ(xi​)ϕ(xj​)替代

对偶问题目标函数变为

求解后分类决策式子变为

核函数

例题

假设输入空间 R 2 \mathcal{R}^2 R2，核函数 K ( x , z ) = ( x , z ) 2 K(x,z) = (x,z)^2 K(x,z)=(x,z)2，试图找出相关特征空间 H \mathcal{H} H和映射 ϕ ( x ) : R 2 → H \phi(x):\mathcal{R}^2 \rightarrow \mathcal{H} ϕ(x):R2→H.

所以我们取映射

验证 ϕ ( x ) ⋅ ϕ ( z ) = ( x ⋅ z ) 2 = K ( x , z ) \phi(x)\cdot\phi(z) = (x\cdot z)^2 = K(x,z) ϕ(x)⋅ϕ(z)=(x⋅z)2=K(x,z)

还可以取映射

同样可验证 ϕ ( x ) ⋅ ϕ ( z ) = ( x ⋅ z ) 2 = K ( x , z ) \phi(x)\cdot\phi(z) = (x\cdot z)^2 = K(x,z) ϕ(x)⋅ϕ(z)=(x⋅z)2=K(x,z)

软间隔与正则化

损失函数

现实生活中，数据没有那么理想，存在一些噪声。很难确定一个核函数使训练样本在特征空间中线性可分，如下图

于是我们改变优化对象

对loss解释:

假如有噪声的的话，我们所求解的 w w w斜率会发生偏离，我们加上一定的惩罚项使得他的偏离变小，类似正则化一样的作用。

我们可以采取 L 0 / 1 L_{0/1} L0/1​是 0 , 1 0,1 0,1损失函数

这里 C C C是惩罚参数，使 1 2 ∥ w ∥ 2 \cfrac{1}{2}\| w\|^2 21​∥w∥2尽量小。即间隔间隔尽量大。同时使得误分类点个数尽量小。 C C C是调和两者系数。

0 , 1 0,1 0,1求解不方便非连续，性质不好舍去，我们打算寻找更好的替代

Conception

常见损失函数

之前的 L 0 / 1 L_{0/1} L0/1​损失函数等价合页损失，写法复杂是一种判断非连续的函数

软约束

由于噪声，我们可以引入一个松弛变量 ε i ≥ 0 \varepsilon_i \geq 0 εi​≥0，使得函数间隔加上松弛变量 ε i \varepsilon_i εi​大于等于 1 1 1

即边界线向超平面靠近

原始问题变为

如法炮制对偶问题，由广义拉格朗日乘子法可知

令 L ( w , b , ξ , α , μ ) L(w,b,\xi,\alpha,\mu) L(w,b,ξ,α,μ)对 w , b , ξ i w,b,\xi_i w,b,ξi​的偏导为 0 0 0

作者： $l i t t l e - x u$

时间： $2021 / 1 / 20$

从二维扩展到多维空间中时，将 $D_1$ 和 $D_2$ 完全正确地划分开的 $w x + b = 0$ 就成了一个超平面。

此处细品超平面到边界线距离：训练集 $T$ 中正例(负例)到超平面 $(w, b)$ 关于 $T$ 中所有样本点 $x_i,y_i)$ 的几何间隔最小值

疑惑：此处 $y_i$ 是来捣蛋的？

$w x + b = 1$ 是我们正例边界切平面，我们将正例中任意一个样本 $x_正,y_正)$ 带入 $y = w x + b - 1$ 得到 $\geq 0$ ,即 $\geq 0$ ,负例也是如此

平面 $w_1x+w_2y+b=0$ ,数据 $x_0,y_0)$ 到平面距离

此处细品超平面到边界线距离：训练集 $T$ 中正例(负例)到超平面 $(w, b)$ 关于 $T$ 中所有样本点 $x_i,y_i)$ 的几何间隔至少是 $\gamma$

由解疑中的边界切线 $\pm 1$ 转化成了

由线性规划在约束条件 $s . t .$ 下让 $w$ 取得最小值，等价于

我们对每条约束添加拉格朗日乘子 $\lambda_i$

我们不妨定义,令 $g(w,b) = 1- y_i(w^Tx_i+b)$ 。于是 $L(w,b.\lambda)$ 先生诞生了

$L(w,b,\lambda)$ 先生本来也是个正常人 $f (w, b)$ ，小时候因为父亲离异，酗酒度日。家暴孩子导致人格分裂。损失一部分 $\sum_{i=1}^{m}\lambda_ig(w,b)$ 😄😆

因为家庭背景原因， $L(w,b,\lambda)$ 从小就与正常孩子不一样。早早社会工作了。整个人事业生活都到了低谷。从此变成了另一个模样 $\theta(\lambda)$

$\theta(w,b)$ 是一个用 $\lambda$ 表示而 $w, b$ 最小的式子。后来啊。他遇到了令他心动的女孩$ f(w^,b)$。喜欢一个人第一感觉往往是自卑，感觉配不上。

如果 $w^,b^$ 是原问题的解，而 $\lambda^$ 是对偶问题的解，则有 $f(w^,b^)\geq \theta(\lambda^)$

所以我们我们 $\theta(\lambda^)$ 先生在 $K K T$ 丘比特帮助下终于追到了 $f(w^,b^*)$ 小姐

总结：如果没有丘比特。那请像 $\theta(\lambda^*)$ 先生一样死不要脸。

$L (w, b . a)$ 开始逐渐变成一个有能力有担当的青年了。

后来 $L(w,b,\lambda)$ 和 $f(w^,b^)$ 小姐发生微妙的关系。对 $\boldsymbol{w}$ 和 $b$ 分别求偏导数并令其等于 $0$

后来啊他儿子诞生了 $\sum_{i=1}^{m} \lambda_i y_i = 0$ 因此我们得到一个新的约束，并且带入 $\boldsymbol{w}$ 和 $b$ 分别求偏导数并令其等于 $0$ 的部分

由 $K K T$ 丘比特可知

解得 $L(w,b,\lambda)$ 中 $\lambda_i$ 后带入

根据KKT条件，我们可以对 $\alpha_i$ 的取值进行讨论，并得出支持向量机一个重要结论：训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量(边界)有关。

简而言之就是把 $X$ 提高维度。令 $\phi(x)$ 表示 $X$ 从低维映射到高维的特征向量。

由于涉及特征空间内积计算。我们用核函数 $K(x_i,x_j)=\phi(x_i)\phi(x_j)$ 替代

假设输入空间 $\mathcal{R}^2$ ，核函数 $K(x,z) = (x,z)^2$ ，试图找出相关特征空间 $\mathcal{H}$ 和映射 $\phi(x):\mathcal{R}^2 \rightarrow \mathcal{H}$ .

验证 $\phi(x)\cdot\phi(z) = (x\cdot z)^2 = K(x,z)$

同样可验证 $\phi(x)\cdot\phi(z) = (x\cdot z)^2 = K(x,z)$

假如有噪声的的话，我们所求解的 $w$ 斜率会发生偏离，我们加上一定的惩罚项使得他的偏离变小，类似正则化一样的作用。

我们可以采取 $L_{0/1}$ 是 $0, 1$ 损失函数

这里 $C$ 是惩罚参数，使 $\cfrac{1}{2}\| w\|^2$ 尽量小。即间隔间隔尽量大。同时使得误分类点个数尽量小。 $C$ 是调和两者系数。

$0, 1$ 求解不方便非连续，性质不好舍去，我们打算寻找更好的替代

之前的 $L_{0/1}$ 损失函数等价合页损失，写法复杂是一种判断非连续的函数

由于噪声，我们可以引入一个松弛变量 $\varepsilon_i \geq 0$ ，使得函数间隔加上松弛变量 $\varepsilon_i$ 大于等于 $1$

令 $L(w,b,\xi,\alpha,\mu)$ 对 $w,b,\xi_i$ 的偏导为 $0$

在对 $\mathop{min}\limits_{w,b,\xi} \ L(w,b,\xi,\alpha,\mu)$ 求极大即得到对偶问题

由此看出，软间隔支持向量最终模型仅与支持向量有关，即通过采用 $h i n g e$ 损失函数保持了稀疏性(指什么？)

就是 $\phi(x)$ 替代 $x$ ，映射到高维。