机器学习系列(14)_SVM碎碎念part2：SVM中的向量与空间距离

最新推荐文章于 2021-04-02 11:03:57 发布

寒小阳

最新推荐文章于 2021-04-02 11:03:57 发布

阅读量1.7w

点赞数 11

分类专栏：机器学习/数据挖掘机器学习与数据挖掘文章标签：机器学习 svm 空间距离向量支持向量机

本文链接：https://blog.csdn.net/han_xiaoyang/article/details/52679559

版权

机器学习/数据挖掘同时被 2 个专栏收录

39 篇文章 148 订阅

订阅专栏

机器学习与数据挖掘

28 篇文章 704 订阅

订阅专栏

作者：寒小阳
时间：2016年9月。
出处：http://blog.csdn.net/han_xiaoyang/article/details/52679559
声明：版权所有，转载请联系作者并注明出处

1.引言

第一篇博客part1的部分很短，就说了一个事情，SVM在试图找一个Max Margin(最大间隔)的分离超平面。OK，这个部分要补补基础，复习一下数学，为后面的学习做准备（墙裂建议数学基础好的同学略过此节基础内容…）。咱们来看看SVM涉及到的向量和空间距离。

2.从向量到距离计算

SVM = Support Vector Machine，我们在Support Vector Machine中, 看到这个单词-vector（向量）。是的，SVM中的大量计算都是建立在向量基础上的，所以这篇做一个简短的知识回顾，会涉及到的内容包括：

向量是什么

它的模长
它的方向
如何加减向量
什么是点积
如何将一个向量映射到另一个向量上
超平面的方程是什么
如何计算间隔

2.1 什么是向量

如果我们在二维空间上定义一个点A (3,4)，我们可以这样绘制它

定义：任意点x=(x1,x2),x≠0指定了平面上的一个向量，即从原点的开始到x点结束的向量。

下图是一个原点与A之间的向量。

这个点的起始位置是原点 $O (0,0)$ ，图中的这个向量是向量 $\vec{OA}$ 。我们也可以找一个其他的字母标记来标识它，例如 $\mathbf{u}$ 。

注：你会发现我们写向量时，在向量上方有一个箭头，或者是将向量加粗。在这篇文章的剩余部分中，如果像 $\vec{OA}$ 这样由两个字母可以表示的，那么我将使用箭头来表示向量，否则的话将使用加粗字体的变量来表示向量。

现在我们知道有一个向量，但我们仍然不知道什么是一个向量。

定义：向量是一个既有大小又有方向的对象。

OK，所以这里涉及到两个概念：大小和方向。

1) 向量大小

一个向量x的大小写作 $\|x\|$ ，称作向量的模。对我们的 $\vec{OA}$ 来说， $\|OA\|$ 是线段 $OA$ 的长度。

从图中我们可以很容易地使用勾股定理计算出距离OA：

O A 2 = O B 2 + A B 2 O A 2 = 32 + 42 O A 2 = 25 O A = 25 ‾ ‾ ‾ \sqrt ∥ O A ∥ = O A = 5

$OA^2 = OB^2 + AB^2\\ OA^2 = 3^2 + 4^2\\ OA^2 = 25\\ OA = \sqrt{25}\\ \|OA\| =OA=5$

2) 向量的方向

方向是向量的第二个组成部分。

定义：向量 $\mathbf{u} (u_1,u_2)$ 的方向是向量 $\mathbf{w}(\frac{u_1}{\|u\|}, \frac{u_2}{\|u\|})$

那向量 $\mathbf{w}$ 的坐标怎么得到的？

要得到一个向量的方向，我们需要借助它的夹角。

上图展示了向量 $\mathbf{u} (u_1,u_2)$ ，其中 $u_1=3$ ， $u_2=4$ 。

简单的理解 : 向量 $\mathbf{u}$ 的方向是由夹角 $\theta$ 和夹角 $\alpha$ 的余弦值决定的。
现在我们来观察一下角度的余弦值：

c o s (θ) = u 1 ∥ u ∥ c o s (α) = u 2 ∥ u ∥

$cos(\theta)=\frac{u_1}{\|u\|}\\ cos(\alpha)=\frac{u_2}{\|u\|}$

因此，这就是向量 $\mathbf{w}$ 最初的定义，也就是为什么他的坐标被称作方向余弦。

计算方向向量

我们现在要计算上图向量 $\mathbf{u}$ 的方向。

c o s (θ) = u 1 ∥ u ∥ = 3 5 = 0.6 c o s (α) = u 2 ∥ u ∥ = 4 5 = 0.8

$cos(\theta)=\frac{u_1}{\|u\|}=\frac{3}{5} =0.6\\ cos(\alpha)=\frac{u_2}{\|u\|}=\frac{4}{5}=0.8$

向量 $\mathbf{u}(3,4)$ 的方向是向量 $\mathbf{w}(0.6,0.8)$ 。
下图是这个方向向量的一个示例：

我们可以看出 $\mathbf{w}$ 和 $\mathbf{u}$ 看起来一样，只是 $\mathbf{w}$ 的值小一点。并且 $\mathbf{w}$ 的模长为1，我们也把它称之为单位向量。

两个向量的和

有两个向量 $\mathbf{u} (u_1, u_2)$ 和 $\mathbf{v} (v_1, v_2)$ ,那么：

u + v = (u 1 + v 1, u 2 + v 2)

$\mathbf{u}+\mathbf{v}= (u_1+v_1, u_2+v_2)$

这意味着两个向量相加形成了第三个向量，第三个向量的坐标是初始两个向量坐标的加和。下面是一个简单的图解：

两个向量的差

类似的，对于减法我们有：

u - v = (u 1 - v 1, u 2 - v 2)

$\mathbf{u}-\mathbf{v}= (u_1-v_1, u_2-v_2)$
cmd-markdown-logo

由于减法是不可交换的，我们也应该考虑另一种情况：

v - u = (v 1 - u 1, v 2 - u 2)

$\mathbf{v}-\mathbf{u}= (v_1-u_1, v_2-u_2)$
cmd-markdown-logo

向量内积

关于理解SVM的一个非常重要的概念就是内积(点积)。

定义：从几何学来说，它是两个向量的模长以及它们之间的夹角余弦值的乘积。

也就是意味着，如果我们有两个向量 $\mathbf{x}$ 和 $\mathbf{y}$ ,他们间的夹角为 $\theta$ ，他们的内积是：

x \cdot y = ∥ x ∥ ∥ y ∥ c o s (θ)

$\mathbf{x} \cdot \mathbf{y} = \|x\| \|y\|cos(\theta)$

为什么内积这么算

为了便于理解，我们看一下这个问题的几何图形

在定义中我们写 $cos(\theta)$ ,让我们看一下他到底是什么。
初中数学知识告诉我们，在一个直角三角形中：

c o s (β) = 角 的 临 边 斜 边

$cos(\beta)=\frac{角的临边}{斜边}$

OK，一个稍微复杂一点的图形，里面有两个向量，如下：

和

合在一起可以得到如下的几何图像：

可以看出：

θ = β - α

$\theta = \beta - \alpha$

所以计算 $cos(\theta)$ 就是在计算 $cos(\beta - \alpha)$ ，根据两角差的余弦公式为：

c o s (β - α) = c o s (β) c o s (α) + s i n (β) s i n (α)

$cos(\beta - \alpha) = cos(\beta)cos(\alpha) + sin(\beta)sin(\alpha)$
(忘记这部分高中数学知识的同学请点击公式推导)

直角三角形中三角函数的定义 =_=|

c o s (β) = 临 边 斜 边 = x 1 ∥ x ∥ s i n (β) = 对 边 斜 边 = x 2 ∥ x ∥ c o s (α) = 临 边 斜 边 = y 1 ∥ y ∥ s i n (α) = 对 边 斜 边 = y 2 ∥ y ∥

$cos(\beta) =\frac{临边}{斜边} =\frac{x_1}{\|x\|}\\sin(\beta) =\frac{对边}{斜边} =\frac{x_2}{\|x\|}\\cos(\alpha) =\frac{临边}{斜边} =\frac{y_1}{\|y\|}\\sin(\alpha) =\frac{对边}{斜边} = \frac{y_2}{\|y\|}$

三角公式替换后有：

c o s (θ) = c o s (β - α) = c o s (β) c o s (α) + s i n (β) s i n (α) c o s (θ) = x 1 ∥ x ∥ y 1 ∥ y ∥ + x 2 ∥ x ∥ y 2 ∥ y ∥ c o s (θ) = x 1 y 1 + x 2 y 2 ∥ x ∥ ∥ y ∥

$cos(\theta) = cos(\beta - \alpha) = cos(\beta)cos(\alpha) + sin(\beta)sin(\alpha)\\cos(\theta) = \frac{x_1}{\|x\|}\frac{y_1}{\|y\|}+ \frac{x_2}{\|x\|}\frac{y_2}{\|y\|}\\cos(\theta) = \frac{x_1y_1 + x_2y_2}{\|x\|\|y\|}$

将 $\|x\|\|y\|$ 左移有：

∥ x ∥ ∥ y ∥ c o s (θ) = x 1 y 1 + x 2 y 2

$\|x\|\|y\|cos(\theta) = x_1y_1 + x_2y_2$

也就是说：

∥ x ∥ ∥ y ∥ c o s (θ) = x \cdot y

$\|x\|\|y\|cos(\theta) = \mathbf{x} \cdot \mathbf{y}$

就这样推导了一遍向量内积的几何定义…

多说一句，当我们在谈论 $\mathbf{x} \cdot \mathbf{y}$ 的点积是我们在谈论的是：

向量X，Y的内积（线性代数）
标量积，因为我们做两个向量的乘积，它返回一个标量（一个实数）。

向量的正交投影

有两个向量 $\mathbf{x}$ 与 $\mathbf{y}$ ,怎么求 $\mathbf{x}$ 在 $\mathbf{y}$ 上的正交投影？，如下图所示，将 $\mathbf{x}$ 投射到 $\mathbf{y}$ 上，得到向量 $\mathbf{z}$

通过定义：

c o s (θ) = ∥ z ∥ ∥ x ∥ ∥ z ∥ = ∥ x ∥ c o s (θ)

$cos(\theta)= \frac{\|z\|}{\|x\|}\\\|z\|=\|x\|cos(\theta)$

我们从内积的部分有：

c o s (θ) = x \cdot y ∥ x ∥ ∥ y ∥

$cos(\theta) = \frac{\mathbf{x} \cdot \mathbf{y}}{\|x\|\|y\|}$

在方程中替换 $cos(\theta)$ 有：

∥ z ∥ = ∥ x ∥ x \cdot y ∥ x ∥ ∥ y ∥ ∥ z ∥ = x \cdot y ∥ y ∥

$\|z\|=\|x\|\frac{\mathbf{x} \cdot \mathbf{y}}{\|x\|\|y\|}\\\|z\|=\frac{\mathbf{x} \cdot \mathbf{y}}{\|y\|}$

如果我们定义了 $\mathbf{u}$ 作为 $\mathbf{y}$ 的方向那么：

u = y ∥ y ∥

$\mathbf{u}=\frac{\mathbf{y}}{\|y\|}$

并且

∥ z ∥ = u \cdot x

$\|z\|=\mathbf{u} \cdot \mathbf{x}$

现在我们可以用一种简单的方式定义 $\mathbf{z}$ 的模：
$\mathbf{z}$ 与 $\mathbf{y}$ 有相同的方向向量 $\mathbf{u}$

u = z ∥ z ∥ z = ∥ z ∥ u

$\mathbf{u}=\frac{\mathbf{z}}{\|z\|}\\\mathbf{z}=\|z\|\mathbf{u}$
所以我们说：
向量

z=(u⋅x)u $\mathbf{z} = (\mathbf{u} \cdot \mathbf{x})\mathbf{u}$ 是向量

x $\mathbf{x}$ 在

y $\mathbf{y}$ 上的正交投影。

为什么要费尽心思去讲正交投影？因为它能帮助我们计算一个距离 $\|x-z\|$ 。

∥ x - z ∥ = (3 - 4) 2 + (5 - 1) 2 ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt = 17 ‾ ‾ ‾ \sqrt

$\|x-z\| = \sqrt{(3-4)^2 + (5-1)^2}=\sqrt{17}$

3. SVM的超平面

我们都知道一条直线的数学方程是： $y = ax + b$ ，而超平面会被定义成类似的形式：

w T x = 0

$\mathbf{w}^T\mathbf{x} = 0$

这两种形式是如何联系的？在超平面的方程可以看出，变量的名称是粗体的。是的，所以它们不是标量，是向量了。此外 $\mathbf{w}^T\mathbf{x}$ 是两个向量的内积。
还有一点大家注意一下，有时候我们会做一些形式变换，比如 $y = ax + b$ 和 $y - ax - b= 0$ 其实是等价的。

两个向量 $\mathbf{w}\begin{pmatrix}-b\\-a\\1\end{pmatrix}$ 与 $\mathbf{x}\begin{pmatrix}1\\x\\y\end{pmatrix}$ ，我们有

w T x = - b \times (1) + (- a) \times x + 1 \times y w T x = y - a x - b

$\mathbf{w}^T\mathbf{x} = -b\times (1) + (-a)\times x + 1 \times y\\\mathbf{w}^T\mathbf{x} = y - ax - b$

注意到 $w_0$ 是 $-b$ ，这个值确定了与纵轴的交点。为什么我们用 $\mathbf{w}^T\mathbf{x}$ 这个方程式代表超平面而非 $y = ax + b$ 呢?因为

在多于二维的空间里，这个方程式更适用
向量w垂直于超平面

计算一个点到超平面的距离第二个原因将派上用场。

3.1 计算点到超平面距离

下图中我们有一个超平面，他将两组数据划分开。

为了简化这个例子，我们干脆将 $w_0$ 设为0。
图中的超平面方程为： $x_2 = -2x_1$ 相当于：

w T x = 0

$\mathbf{w}^T\mathbf{x}=0$

其中 $\mathbf{w}\begin{pmatrix}2 \\1\end{pmatrix}$ ， $\mathbf{x} \begin{pmatrix}x_1 \\ x_2\end{pmatrix}$ 。请注意 $\mathbf{w}$ 是一个向量而非数据点。

我们来计算一下点 $A(3,4)$ 到超平面的距离，下图是 $A$ 投影到超平面的距离。

我们把点 $A$ 视作一个从原点指向 $A$ 的向量。再将 $\mathbf{A}$ 向量投影到向量 $\mathbf{w}$ 上

得到向量 $\mathbf{p}$

我们的目标是找到点 $A(3,4)$ 和超平面之间的距离。从上图中可以很清楚看到这个距离就是 $\|p\|$ 。让我们一起计算一下它的值：

向量 $\mathbf{w}=(2,1)$ 垂直于超平面，向量 $\mathbf{a} = (3,4)$

∥ w ∥ = 22 + 12 ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt = 5 \sqrt

$\|w\|=\sqrt{2^2+1^2}=\sqrt{5}$
设向量

u $\mathbf{u}$ 为

w $\mathbf{w}$ 的方向向量

u = (2 5 \sqrt, 1 5 \sqrt)

$\mathbf{u} = (\frac{2}{\sqrt{5}},\frac{1}{\sqrt{5}})$

p $\mathbf{p}$ 是

a $\mathbf{a}$ 在

w $\mathbf{w}$ 上的投影，所以：

p = (u \cdot a) u p = (3 \times 2 5 \sqrt + 4 \times 1 5 \sqrt) u p = (6 5 \sqrt + 4 5 \sqrt) u p = 10 5 \sqrt u p = (10 5 \sqrt \times 2 5 \sqrt, 10 5 \sqrt \times 1 5 \sqrt) p = (20 5, 10 5) p = (4, 2) ∥ p ∥ = 42 + 22 ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt = 2 5 \sqrt

$\mathbf{p} = (\mathbf{u} \cdot \mathbf{a})\mathbf{u}\\\mathbf{p} = ( 3 \times \frac{2}{\sqrt{5}} + 4 \times \frac{1}{\sqrt{5}}) \mathbf{u}\\\mathbf{p} = (\frac{6}{\sqrt{5}} + \frac{4}{\sqrt{5}})\mathbf{u} \mathbf{p} = \frac{10}{\sqrt{5}}\mathbf{u}\\\mathbf{p} = (\frac{10}{\sqrt{5}}\times\frac{2}{\sqrt{5}},\frac{10}{\sqrt{5}}\times\frac{1}{\sqrt{5}})\\\mathbf{p} = (\frac{20}{5},\frac{10}{5})\\\mathbf{p} = (4,2)\\\|p\| =\sqrt{4^2+2^2} = 2\sqrt{5}$