西瓜书第六章笔记

最新推荐文章于 2022-12-03 20:57:18 发布

高景向心

最新推荐文章于 2022-12-03 20:57:18 发布

阅读量241

点赞数 1

文章标签：机器学习支持向量机人工智能

本文链接：https://blog.csdn.net/qq_51686392/article/details/127624958

版权

支持向量机

2.1 模型

给定线性可分数据集 X X X，支持向量机模型希望求得数据集 X X X关于超平面的几何间隔 γ \gamma γ达到最大的那个超平面，然后接上一个sign函数实现分类功能 y = s i g n ( w T x + b ) = { 1 w T x + b > 0 − 1 w T x + b > 0 \begin{equation}y=sign({\bf w^Tx}+b)=\begin{cases}1\quad &{\bf w^Tx}+b>0\\-1 \quad &{\bf w^Tx}+b>0\end{cases}\nonumber\end{equation} y=sign(wTx+b)={1−1wTx+b>0wTx+b>0
因此支持向量机的本质和感知机一样，仍然是在求一个超平面。那么几何间隔最大的超平面一定是我们想找到的那个“距离正负样本都最远的超平面”吗？是的，原因如下：

当超平面错误划分样本时，几何间隔最小的为误分类点， γ < 0 \gamma<0 γ<0。
当超平面正确划分样本时， γ ≥ 0 \gamma\ge0 γ≥0，且该超平面越靠近正负样本中央 γ \gamma γ越大。

2.2 策略

给定线性可分数据集 X X X，设 X X X中几何间隔最小的样本为 ( x m i n , y m i n ) ({\bf x}_{min},y_{min}) (xmin,ymin)，则支持向量机寻找超平面的过程可转化为以下带约束条件的优化问题：
m a x γ s . t . γ i ≥ γ , i = 1 , 2 , . . . , m \begin{aligned}&max\quad\gamma\\&s.t.\quad \gamma_i\ge\gamma,\quad i=1,2,...,m\end{aligned}maxγs.t.γi≥γ,i=1,2,...,m
即： m a x y m i n ( w T x m i n + b ) ∣ ∣ w ∣ ∣ s . t . y i ( w T x i + b ) ≥ y m i n ( w T x m i n + b ) , i = 1 , 2 , . . . , m \begin{aligned}&max\quad\frac{y_{min}({\bf w^Tx_{min}}+b)}{||{\bf w}||}\\&s.t.\quad{y_i({\bf w^Tx_i}+b)}\ge{y_{min}({\bf w^Tx_{min}}+b)},\quad i=1,2,...,m\end{aligned}max∣∣w∣∣ymin(wTxmin+b)s.t.yi(wTxi+b)≥ymin(wTxmin+b),i=1,2,...,m
设该问题最优解为 ( w ∗ , b ∗ ) ({\bf w^*},b^*) (w∗,b∗)，则 ( α w ∗ , α b ∗ ) ， α ∈ R + (\alpha{\bf w^*},\alpha b^*)，\alpha\in\mathbb R^+ (αw∗,αb∗)，α∈R+也是最优解而超平面保持不变。所以需要对 w , b {\bf w},b w,b做一定限制才能使得上述优化问题有可解的唯一解。而这里不妨令 y m i n ( w T x m i n + b ) = 1 {y_{min}({\bf w^Tx_{min}}+b)}=1 ymin(wTxmin+b)=1，因为对于特定的 ( x m i n , y m i n ) ({\bf x}_{min},y_{min}) (xmin,ymin)来说，能使得 y m i n ( w T x m i n + b ) = 1 {y_{min}({\bf w^Tx_{min}}+b)}=1 ymin(wTxmin+b)=1的 α \alpha α有且仅有一个，所以上述优化问题进一步转化为： m a x 1 ∣ ∣ w ∣ ∣ s . t . y i ( w T x i + b ) ≥ 1 , i = 1 , 2 , . . . , m \begin{aligned}&max\quad\frac{1}{||{\bf w}||}\\&s.t.\quad {y_i({\bf w^Tx_i}+b)}\ge1,\quad i=1,2,...,m\end{aligned}max∣∣w∣∣1s.t.yi(wTxi+b)≥1,i=1,2,...,m
根据解一般优化问题的习惯，方便讨论与计算，将上面的式子进一步转化：
m i n 1 2 ∣ ∣ w ∣ ∣ 2 s . t . 1 − y i ( w T x i + b ) ≤ 0 , i = 1 , 2 , . . . , m \begin{aligned}&min\quad\frac{1}{2}{||{\bf w}||}^2\\&s.t.\quad 1-{y_i({\bf w^Tx_i}+b)}\le0,\quad i=1,2,...,m\end{aligned}min21∣∣w∣∣2s.t.1−yi(wTxi+b)≤0,i=1,2,...,m
如此，此优化问题是含不等式约束的优化问题，且可证明是凸优化问题。

2.3 求解算法

这里采用拉格朗日对偶来求解支持向量机问题。主问题： m i n 1 2 ∣ ∣ w ∣ ∣ 2 s . t . 1 − y i ( w T x i + b ) ≤ 0 , i = 1 , 2 , . . . , m \begin{aligned}&min\quad\frac{1}{2}{||{\bf w}||}^2\\&s.t.\quad 1-{y_i({\bf w^Tx_i}+b)}\le0,\quad i=1,2,...,m\end{aligned}min21∣∣w∣∣2s.t.1−yi(wTxi+b)≤0,i=1,2,...,m
其拉格朗日对偶函数： L ( w , b , α ) = 1 2 ∣ ∣ w ∣ ∣ 2 + ∑ i = 1 m α i ( 1 − y i ( w T x i + b ) ) = 1 2 ∣ ∣ w ∣ ∣ 2 + ∑ i = 1 m α i − ∑ i = 1 m α i y i w T x i − b ∑ i = 1 m α i y i \begin{aligned}L(w,b,\alpha)&=\frac{1}{2}{||{\bf w}||}^2+\sum\limits_{i=1}^{m}\alpha_i(1-{y_i({\bf w^Tx_i}+b)})\\ &=\frac{1}{2}{||{\bf w}||}^2+\sum\limits_{i=1}^{m}\alpha_i-\sum\limits_{i=1}^{m}\alpha_iy_i{\bf w^Tx_i}-b\sum\limits_{i=1}^{m}\alpha_iy_i\end{aligned} L(w,b,α)=21∣∣w∣∣2+i=1∑mαi(1−yi(wTxi+b))=21∣∣w∣∣2+i=1∑mαi−i=1∑mαiyiwTxi−bi=1∑mαiyi
若将 w , b w,b w,b合并为 w ^ = ( w ; b ) {\hat w}=(w;b) w^=(w;b)，显然上式时关于 w ^ {\hat w} w^的凸函数，求其一阶导令其等于0然后待会即可得到最小值，也即拉格朗日对偶函数。
再根据强对偶性成立推的最优解必须满足如下KKT条件： α i ≥ 0 y i f ( x i ) − 1 ≥ 0 α i ( y i f ( x i ) − 1 ) = 0 \begin{aligned} \alpha_i\ge0 \\ y_if({\bf x_i})-1\ge0 \\ \alpha_i(y_if({\bf x_i})-1)=0 \end{aligned} αi≥0yif(xi)−1≥0αi(yif(xi)−1)=0

思考：为何支持向量机通常采用拉格朗日对偶求解？

无论主问题是何种优化问题，对偶问题恒为凸优化问题，因此更容易求解。
支持向量机的优化问题的原始问题的时间复杂度和特征维数呈正比（因为未知量 w w w的大小与特征维数相同），而对偶问题是与数据量成正比（因为未知量是 α \alpha α）。所以，当特征维数远高于数据量的时候，拉格朗日对偶更高效。
对偶问题能很自然地引入核函数，进而推广到非线性分类问题。(主要原因)

3、软间隔与硬间隔

在这里插入图片描述

在引入软间隔的概念后，图6.4上的红色圈的样本也是支持向量，对于这些样本有限制条件

yf>=1-sita

在这里插入图片描述

解释一下该模型：

第一项是一直以来最大化间隔都想要优化的项，略；
第二项基于不满足约束的样本也应尽可能少这一理念，引入了“0/1损失函数”，当样本不满足约束时，损失函数取值为1，第二项的取值为C，满足约束时则为0。也就是说，不满足约束的样本越多(n)时，第二项的取值越大(n*C)，则越偏离我们想要优化的方向（最小化）。于是，最小化该方程的最优解保证了不满足约束的样本也应尽可能少的要求。
值得注意的是，当C取无穷大时，最小化该方程的最优解迫使所有样本均满足约束，也就是将(6.29)等价于前面硬间隔的(6.6)见书。接下来，按之前的步骤就是开始使用拉格朗日乘子法求对偶问题，但是这里的0/1损失函数非凸非连续，数学性质不太好，使得式(6.29)不易直接求解。
于是，这里使用具有较好的数学性质的代替损失函数(如它们通常是凸的连续函数且是0/1损失函数的上界)。（联系3.3节用対率函数代替单位阶跃函数的思路）