支持向量机数学推导 Part2

最新推荐文章于 2025-02-22 17:53:10 发布

西檬饭

最新推荐文章于 2025-02-22 17:53:10 发布

阅读量595

点赞数

分类专栏：机器学习文章标签： SVM 支持向量机数学推导凸函数

机器学习专栏收录该内容

41 篇文章

订阅专栏

这篇介绍如何求约束问题的解。涉及到很多高等数学和线性代数的知识。
建议先读：支持向量机数学推导Part1

最优分离超平面的优化问题

上一篇文章的最后我们发现要求最优分离超平面等价于求W最小的模。求这个模需要解决一个优化问题：
最小化在 $(\textbf{w}, b)$ 中的 $\|\textbf{w}\|$ , 服从 $y_i(\mathbf{w}\cdot\mathbf{x_i} + b) \geq 1$ ， $i = 1, \dots, n$ 。
这个优化问题有n个约束。在解决难题之前，先介绍如何解决无约束条件最小化问题。

无约束条件最小化问题

极值定理：

函数在定义域内有连续的二阶导数，当一阶导数为0，二阶导数大于零时，在该点取得极小值。

深入定理

$f$ 在 $x^*$ 处梯度为零, 可以表示为 $\nabla f(\mathbf x^*) = 0$ ,
函数 $f$ 在 $x^*$ 处的二阶导数大于零，可以用矩阵的形式可以表示为 $\mathbf{z}^\intercal ((\nabla^2f(\mathbf x^*))\mathbf{z}>0, \forall \mathbf{z} \in \mathbb R^n$ ，其中二阶偏导数为

\nabla 2 f (x) = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ \partial 2 f \partial x 2 1 ⋮ \partial 2 f \partial x n \partial x 1 \dots ⋱ \dots \partial 2 f \partial x 1 \partial x n ⋮ \partial 2 f \partial x 2 n ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟

$\nabla^2f(\mathbf x) = \begin{pmatrix}\frac{\partial^2f}{\partial x^2_1 } & \cdots & \frac{\partial^2f}{\partial x_1 \partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial^2f}{\partial x_n \partial x_1} & \cdots & \frac{\partial^2f}{\partial x^2_n}\end{pmatrix}$

维基百科-海森矩阵

海森矩阵（Hessian matrix 或 Hessian）是一个多变量实值函数的二阶偏导数组成的方块矩阵，所以上面的二阶偏导数也就是海森矩阵。

二维情况下

给定二阶导数连续的映射 $f:\mathbb {R} ^{2}\to \mathbb {R}$ ，海森矩阵的行列式，可用于分辨 $f$ 的临界点是属于鞍点还是极值点。
- H > 0：若 ${\frac {\partial ^{2}f}{\partial x^{2}}}>0$ ，则 $(x_{0},y_{0})$ 是局部极小点；若 ${\frac {\partial ^{2}f}{\partial x^{2}}}<0$ ，则 $(x_{0},y_{0})$ 是局部极大点。
- H < 0： $(x_{0},y_{0})$ 是鞍点。
- H = 0：二阶导数无法判断该临界点的性质，得从更高阶的导数以泰勒公式考虑.

高维情况下

当函数 $f:\mathbb {R} ^{n}\to \mathbb {R}$ 二阶连续可导时，Hessian矩阵H在临界点 $x_{0}$ 上是一个 $n\times n$ 阶的对称矩阵。这也是一个定理，下面会用到。
- 当H是正定矩阵时，临界点 $x_{0}$ 是一个局部的极小值。
- 当H是负定矩阵时，临界点 $x_{0}$ 是一个局部的极大值。
- H=0,需要更高阶的导数来帮助判断。
- 在其余情况下，临界点 $x_{0}$ 不是局部极值。

正定矩阵

我们想要寻找函数在某点处的值是不是极小值，在高维情况下，只要海森矩阵是正定矩阵，那么就能够得到在这个点处取得极小值。
正定矩阵定义：如果一个 $\mathbf {x}^\intercal A\mathbf {x} >0$ ,那么对称矩阵A是正定矩阵。
正定有两个条件：1）矩阵A是对称矩阵 2）存在一个可逆变换 $x$ 使得 $\mathbf {x}^\intercal A\mathbf {x} >0$ 。
上面说到，具有连续二阶偏导数的函数，其海森矩阵是对称矩阵。定义中的 $\mathbf {x}^\intercal A\mathbf {x} >0$ 换成我们的表达式就是 $\mathbf{z}^\intercal ((\nabla^2f(\mathbf x^*))\mathbf{z}>0, \forall \mathbf{z} \in \mathbb R^n$ 中，如何确定 $\mathbf z$ 呢？这个通常是很困难的。我们通常用以下定理来证明一个对称矩阵是正定矩阵。

所有特征值大于0
所有余子式大于0
存在非奇异方阵B，使得 $A = B^\intercal B$

例子

寻找 Rosenbrock’s banana function： $f(x,y) = (2-x)^2+100(y-x^2)^2$ 的最小值。

1）求一阶偏导数

\nabla f (x, y) = ⎛ ⎝ \partial f \partial x \partial f \partial y ⎞ ⎠

$\nabla f(x,y)=\begin{pmatrix}\frac{\partial f}{\partial x} \\\frac{\partial f}{\partial y} \end{pmatrix}$

\partial f \partial x = 2 (200 x 3 - 200 x y + x - 2)

$\frac{\partial f}{\partial x} = 2(200x^3-200xy+x-2)$

\partial f \partial y = 200 (y - x 2)

$\frac{\partial f}{\partial y} = 200(y-x^2)$

2 (200 x 3 - 200 x y + x - 2) = 0 200 (y - x 2) = 0

$2(200x^3-200xy+x-2) =0 \\ 200(y-x^2) =0$

x = 2

$x=2$

y = 4

$y=4$
2) 求海森矩阵（所有二阶偏导数和二阶导数）

\nabla 2 f (x, y) = ⎛ ⎝ ⎜ \partial 2 f \partial x 2 \partial 2 f \partial y x \partial 2 f \partial x y \partial 2 f \partial y 2 ⎞ ⎠ ⎟

$\nabla^2f(x,y)=\begin{pmatrix}\frac{\partial^2 f}{\partial x^2}&\frac{\partial^2 f}{\partial xy}\\\frac{\partial^2 f}{\partial yx}&\frac{\partial^2 f}{\partial y^2}\\\end{pmatrix}$

\partial 2 f \partial x 2 = 1200 x 2 - 400 y + 2

$\frac{\partial^2 f}{\partial x^2}=1200x^2-400y+2$

\partial 2 f \partial x y = - 400 x

$\frac{\partial^2 f}{\partial xy}=-400x$

\partial 2 f \partial y x = - 400 x

$\frac{\partial^2 f}{\partial yx}=-400x$

\partial 2 f \partial y 2 = 200

$\frac{\partial^2 f}{\partial y^2}=200$
代入

(x,y)=(2,4) ( x , y ) = ( 2 , 4 ) $(x,y) = (2,4)$ 计算得

\nabla 2 f (x, y) = (3202 - 800 - 800 200)

$\nabla^2f(x,y)=\begin{pmatrix}3202&-800\\-800&200\\\end{pmatrix}$
3）判断其是否为正定矩阵。
首先，这个海森矩阵是对称矩阵，接着就要看他满不满足上面说的三个定理中的任意一个。阶数低的情况下比较好求，这里通过余子式就能看出来。

a 11 = 3202

$a_{11} = 3202$

∣ ∣ ∣ a 11 a 21 a 12 a 22 ∣ ∣ ∣ = ∣ ∣ ∣ 3202 - 800 - 800 200 ∣ ∣ ∣ = 3202 \times 200 - (- 800) \times (- 800) = 400

$\left|\begin{array}{cccc} a_{11}& a_{12}\\ a_{21}& a_{22} \end{array}\right| = \left|\begin{array}{cccc} 3202 & -800 \\ -800 & 200 \end{array}\right| = 3202\times200-(-800)\times(-800)=400$