SVM决策边界及损失函数

最新推荐文章于 2024-08-16 09:42:58 发布

林下月光

最新推荐文章于 2024-08-16 09:42:58 发布

阅读量3.7k

点赞数 6

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_41857483/article/details/109479860

版权

机器学习专栏收录该内容

67 篇文章 21 订阅

订阅专栏

决策边界+SVM损失函数

回顾一下前面博客中提到的决策边界，在二维的平面上，决策边界即超平面是一条直线。
现在假设有N个样本点，每个样本点表示为(x $_i$ , $y_i$ )，x $_i$ 是特征向量。为了便于理解，所以假设每个样本有2个特征，即对于任意一个样本i有： (x $_{1i}$ , x $_{2i}$ , ${y_i}$ )，就表示他们的两个特征值和对应的标签。
接着在二维平面上，将它们表示出来（相当于用x $_{2}$ 来表示横坐标，x $_{1}$ 表示纵坐标， ${y}$ 表示类别，图中体现为蓝色这类或红色这类），就如下图：

在这里插入图片描述
设置红色样本点标签为1，蓝色样本点标签为-1。此时，在二维平面上，找决策边界，也就是找超平面，超平面应该是一维的直线。任何一条直线都可以有如下表示：
${x_1}$ = ${ax_2}$ + ${b}$
将变量都移至等号的一边：
0 = ${ax_2}$ - ${x_1}$ + ${b}$
转换成矩阵相乘的形式：
0 = $\begin{bmatrix}a,-1 \\ \end{bmatrix}$ * $\begin{bmatrix}x_2 \\ x_1 \\ \end{bmatrix}$ + $b$
其中， $\begin{bmatrix}a,-1 \\ \end{bmatrix}$ 是参数向量， $\begin{bmatrix}x_2 \\ x_1 \\ \end{bmatrix}$ 是特征向量；
即可写成：
0 = $w^Tx$ + $b$ 。
所以在SVM中，决策边界就可以用 $w^Tx$ + $b$ = 0来表示，若不给定 $w$ 和 $b$ ，就表示平面上的任意一条直线；若确定了 $w$ 和 $b$ ，也确定了唯一的 $x$ 的取值，就能够表示一个样本点了。
最终的目标是求解最佳的决策边界，即使得间隔最大化的决策边界，即需要求解 $w$ 和 $b$ 。

首先，在决策边界上任取2点， $x_m$ 和 $x_n$ ，将其代入表达式有：
$w^Tx_m$ + $b$ = 0 ①
$w^Tx_n$ + $b$ = 0 ②
① – ②得：
$w^T$ * $x_m - x_n)$ = 0

补充
对于向量 $a$ = [ $a_1$ , $a_2$ … $a_n$ ]和向量 $b$ = [ $b_1$ , $b_2$ … $b_n$ ]，其点积可表示为：
$a \cdot b$ = $a_1$ $b_1$ + $a_2$ $b_2$ + … + $a_n$ $b_n$
若用矩阵乘法且将向量看成是nX1的矩阵，还可以写成：
$a \cdot b$ = $a^T$ * b

又由两个向量点积为0可以得知两个向量互相垂直，即 $w$ 与 $x_m - x_n)$ 相互垂直。而 $x_m - x_n)$ 其方向是平行于决策边界（ $w^Tx$ + $b$ = 0 ）的，故参数向量 $w$ 方向与决策边界垂直。
假设下方图片中绿色直线表示决策边界，则 $w$ 方向如图所示

在这里插入图片描述
现在，对于任意一个红色的样本点 $x_p$ ，可以表示为：

$w^T·x_p$ + $b$ = $p$
因为该点不在决策边界上，所以p肯定不为0，又红色标签为1，所以定p>0；
同理，对于任意一个蓝色的样本点 $x_q$ ，可以表示为：

$w^T·x_q$ + $b$ = $q$
蓝色标签为-1，所以定q<0；

综上所述，对于新的待测样本点 $x_k$ ，其标签可以有如下判定：

$y=\left\{\begin{aligned} 1, & \text w \cdot x_{k}+b>0 \\-1, & \text w \cdot x_{k}+b<0 \end{aligned}\right.$

在上一篇博客中，也提到，在决策边界的两侧有两个超平面，这里就是在我们画的这条直线两侧，分别有平行于它的两条线，这两条平行线之间的距离就是Margin。

在这里插入图片描述

这两条平行线可以这样表示：

$w \cdot x$ + $b$ = $t$ ； $w \cdot x$ + $b$ = $- t$
上边两个式子两边同时除以 $t$ ：
$w \cdot x$ + $b$ = $1$ ； $w \cdot x$ + $b$ = $- 1$
若将虚线平行外移，穿过的样本点(离决策边界最近)就是支持向量
同上，令红色样本点为 $x_p$ ，蓝色为 $x_q$ ，那么有：

$w·x_p$ + $b$ = $1$ ； $w·x_q$ + $b$ = $- 1$

再将两式相减得到：

$w$ * ( $x_p-x_q$ ) = $2$

在这里插入图片描述
我们希望求解的是Margin，即通过红色样本点 $x_p$ 和蓝色样本点 $x_q$ 构成的那个小三角形中的黑色虚线那条边，而现在三角形的斜边就是 $x_p-x_q$ 是可以求解的。

补充
此时引入线代中模长的概念。
① 向量m除以它的模长就等于向量m方向上的单位向量，即 $\vec{m}\over{||m||}$ ，方向指向 $\vec{m}$ 的方向，值为1；
② 向量n乘向量m方向上的单位向量结果为向量n在向量m方向上的投影的长度。即 $\vec{n}·\vec{m}\over{||m||}$ ，这里的结果是一个数，因为分子相当于是一个点积，点积的结果是一个数，分母模长也是数，所以求得的结果就是投影的长度。

由上边补充的模长相关知识，可以知道我们想求解的Margin，也就是 $x_p$ 和 $x_q$ 组成的那个小三角的黑色虚线，也就是向量 $x_p-x_q)$ 在 $w$ 方向上的投影。所以可以写出下面的式子（将 $w$ * ( $x_p-x_q$ ) = $2$ 两边同时除以 $∣ ∣ w ∣ ∣$ ）：
Margin = $w*(x_p-x_q)\over{||m||}$ = $x_p-x_q)$ * $w\over{||w||}$ = $2\over||w||$