从SVM到双线性SVM再到SMM_support matrix machines-CSDN博客

本文链接：https://blog.csdn.net/liudaxia1990/article/details/50967909

本文详细介绍了从支持向量机(SVM)到双线性支持向量机(Bilinear SVM)再到支持矩阵机(SMM)的发展过程。涵盖SVM的基本原理、核技巧的应用、SMO算法简介以及Bilinear SVM和SMM如何更好地处理矩阵结构数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文讲述从SVM（支持向量机）到 Bilinear SVM（双线性支持向量机），最后到SMM（Support Matrix Machines , 支持矩阵机）的发展历程。

参考文献为：
- 《统计学习方法》李航
- NIPS2009 文章 ”Bilinear classifiers for visual recognition”
- ICML2015文章 ”Support Matrix Machines”

SVM

　支持向量机是一个二分类的算法，它的实现机理主要是间隔最大化，根据训练数据是否线性可分性分为三类：当训练数据线性可分时，运用硬间隔最大化（hard margin maximization）学习一个线性可分支持向量机；当训练数据近似线性可分时，运用软间隔最大化（soft margin maximization）学习一个线性支持向量机；当训练数据线性不可分时运用核技巧（kernel trick）和软间隔最大化学习一个非线性支持向量机.

几个重要的基本术语：分离超平面、分类决策函数、函数间隔、几何间隔、支持向量
以下面这一个图说明这几个概念。

假设给定一个特征空间的上训练数据集: $T={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)}$ , $x_i$ 为实例， $y_i$ 为对应的类标，取值为 $1$ 代表分类正确， $-1$ 时代表分类错误。

分离超平面：将特征空间划分为正负两类的超平面，法向量指向的一侧为正类，另一侧为负类。对应图中的实线 $w^Tx+b=0$ , 其中 $w$ 为法向量， $b$ 为截距，圆圈代表正类，叉号代表负类。对于线性可分的情况，存在无数个分离超平面可将正负样本分开，但是分类的效果是不一样的。

分类决策函数：即 $f(x)=sign(w^Tx+b)$

函数间隔：对于每一个样本点，函数间隔为 $y_i(w^Tx_i+b)$ ，其中 $|w^Tx_i+b|$ 能相对的表示点 $x_i$ 距离超平面的远近，而 $w^Tx_i+b$ 的符号与类标 $y_i$ 是否一致则表示是否分类正确。我们把所有点中函数间隔最小的定义为整个数据集对于超平面的函数间隔。

几何间隔：对于每一个样本点，几何间隔为 $\frac{y_i}{||w||}(w^Tx_i+b)$ 。对于函数间隔，只要成比例的改变 $w$ 和 $b$ , 超平面并没有改变，但是函数间隔也会有相应比例的改变。基于此引入几何间隔，具体做法是对法向量归一化 $||w||=1$ 便可得到的几何间隔。与函数间隔做法一样，我们把所有点中函数间隔最小的定义为整个数据集对于超平面的几何间隔。

支持向量：距离分类超平面最近的实例。对于正样本，支持向量在 $w^Tx+b=+1$ 上，对于负样本，支持向量在 $w^Tx+b=-1$ 上。

硬间隔最大化

开篇提过，SVM实现的机理是间隔最大化（具体指几何间隔最大化），因此有以下目标函数（其中 $\theta$ 表示几何间隔）:

m a x w, b θ, s . t . y i | | w | | (w \cdot x i + b) \geq θ, i = 1, 2, \dots, N

$\begin{align} \mathop{max}_{w,b}~~\theta ~~,~~ s.t. ~~~\frac{y_i}{||w||}(w\cdot x_i+b)\ge \theta ~, ~~i=1,2,\cdots , N \end{align}$
将几何间隔

θ $\theta$ 换成函数间隔

γ $\gamma$ ，得到下式：

m a x w, b γ | | w | |, s . t . y i (w \cdot x i + b) \geq γ, i = 1, 2, \dots, N

$\begin{align} \mathop{max}_{w,b} ~~ \frac{\gamma}{||w||} ~~,~~ s.t. ~~~y_i(w\cdot x_i+b)\ge \gamma ~, ~~i=1,2,\cdots , N \end{align}$

将最大化问题等价转化为最小化问题，同时由于 $\gamma$ 的改变对目标函数的优化没有影响，所以令 $\gamma$ =1，于是得到线性可分支持向量机学习的最优化问题形式：

m i n w, b 1 2 | | w | | 2, s . t . y i (w \cdot x i + b) - 1 \geq 0, i = 1, 2, \dots, N

$\begin{align} \mathop{min}_{w,b}~~ \frac{1}{2}||w||^2 ~~,~~ s.t. ~~~y_i(w\cdot x_i+b)-1\ge 0~ , ~~i=1,2,\cdots , N \end{align}$

我们将上面的最优化问题称为原始问题，通过对其构建拉格朗日函数并求解，可以得到它的对偶形式 :

m i n α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j ） - \sum i = 1 N α i, s . t . \sum i = 1 N α i y i = 0, α i \geq 0, i = 1, 2, . ., N

$\begin{align} \mathop{min}_{\alpha} ~~ \frac{1}{2} \sum_{i=1}^N\sum_{j=1}^N \alpha_i\alpha_jy_iy_j(x_i\cdot x_j）-\sum_{i=1}^N{\alpha_i}~~,~~s.t.~~~\sum_{i=1}^N{\alpha_i}y_i=0~~,~~\alpha_i\ge0~~,~~i=1,2,..,N \end{align}$

具体过程再此不再叙述，想了解的话可以阅读李航的统计学习方法。

软间隔最大化

当训训练数据近似线性可分时，我们对每个样本点引进一个松弛变量 $\xi_i\ge0$ , 于是最优化问题就从硬间隔最大化过渡为：

m i n w, b 1 2 | | w | | 2 + C \sum i = 1 N ξ i, s . t . y i (w \cdot x i + b) \geq 1 - ξ i, ξ i \geq 0, i = 1, 2, \dots, N

$\begin{align} \mathop{min}_{w,b} ~~ \frac{1}{2}||w||^2 +C\sum_{i=1}^N\xi_i~~,~~ s.t. ~~~y_i(w\cdot x_i+b)\ge 1-\xi_i~ , ~~\xi_i\ge 0~~,~~i=1,2,\cdots , N \end{align}$

它的对偶形式是：

m i n α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j ） - \sum i = 1 N α i, s . t . \sum i = 1 N α i y i = 0, 0 \leq α i \leq C, i = 1, 2, . ., N

$\begin{align} \mathop{min}_{\alpha}~~ \frac{1}{2} \sum_{i=1}^N\sum_{j=1}^N \alpha_i\alpha_jy_iy_j(x_i\cdot x_j）-\sum_{i=1}^N{\alpha_i}~~,~~s.t.~~~\sum_{i=1}^N{\alpha_i}y_i=0~~,~~0\leq\alpha_i\leq C~~,~~i=1,2,..,N \end{align}$

还可以从Hinge Loss Function（合页损失函数）的角度推倒出线性支持向量机的目标函数：

m i n w, b \sum i = 1 N [1 - y i (w \cdot x i + b)] + + λ | | w | | 2

$\begin{align} \mathop{min}_{w,b}~~\sum_{i=1}^N\left[ 1-y_i(w\cdot x_i+b)\right]_{+}+\lambda||w||^2 \end{align}$
其中

[z]+ $\left[z\right]_{+}$ 为 hing loss function , 表示小于

0 $0$ 的部分取

0 $0$ ，大于

0 $0$ 的部分取

z $z$ 。

核技巧

通俗的讲，核技巧的主要思想是将一个低维的线性不可分的样本点投影到高维，使其变得线性可分，即用维数升高为代价换取线性可分性。听上去还是有点玄乎，再通俗点就是从不同的视角看这些样本点，即所谓横看成岭侧成峰。下面是一个很好的例子：

假设图中直线是我们要分类的样本点，红色ab段是正类，两边的蓝色段是负类。显然用线性方法（即直线）是无法进行分类的，我们可以用图中的抛物线将正负类分开。

设抛物线的方程是 $g(x)=c_0x^2+c_1x+c_2$ , 显然这是一个二维非线性的。

我们令 $[a_1,a_2,a_3]=[c_0,c_1,c_2]$ ， $[y_1,y_2,y_3]=[x^2,x,1]$ ,

那么有 $g(x)=c_0x^2+c_1x+c_2=[c_0,c_1,c_2] \cdot[x^2,x,1]^T= [a_1,a_2,a_3]\cdot[y_1,y_2,y_3]^T=a_1y_1+a_2y_2+a_3y_3$ ,

式子 $a_1y_1+a_2y_2+a_3y_3$ 是三维线性的。

这个简单例子验证了将一个低维的线性不可分的样本点投影到高维，使其变得线性可分的思想。

在上面例子中我们把 $g(x)$ 中的 $x^2$ 项看成 $x_1x_2$ ，定义 $[x_1,x_2]$ 构成的二维空间为 $X$ ，而 $[y_1,y_2,y_3]$ 构成的三维空间为 $H$ ，将二维空间到三维空间的映射定义为 $\psi(x) : X\rightarrow H$ , 然后我们定义核函数为 $K(x,z)=\psi(x)\psi(z)$ , 其中 $x,z\in X$ 代表了此二维空间中所有元素。

满足一定条件的函数才能作为核函数（条件在此不作讨论），常用的核函数有

多项式核函数： $K(x,z)=(x\cdot z+1)^p$ , 对应的分类决策函为： $f(x)=sign(\sum\limits_{i=1}^{N_s}a_iy_i(x_i\cdot x+1)^p+b)$

高斯核函数： $K(x,z)=exp(-\frac{||x-z||^2}{2\sigma^2})$ , 对应的分类决策函数为： $f(x)=sign(\sum\limits_{i=1}^{N_s}a_iy_i exp(-\frac{||x-z||^2}{2\sigma^2})+b)$

从上面可以看出，对于非线性支持向量机，只需要把线性支持向量机对偶形式中的內积换成核函数即可。

上面提到的三种支持向量机形式上都是凸二次规划问题，具有全局最优解，且有许多算法可以求解。但是当样本容量很大时求解非常低效，所以提出了快速实现算法，SMO（序列最小最优化）是其中广泛使用的一种。具体内容以后有时间再补充上。

Blinear SVM

双线性支持向量机的提出是基于实际分类问题中，我们要处理的数据（比如图像）是以矩阵的形式存在、存放的，矩阵内部具有结构性，即行与行，列与列之间是相互关联的。而SVM在处理时，把代表单个实例的矩阵按行或列首尾相接拉成一个长向量的形式进行处理，这就在一定程度上损坏了矩阵的结构性。基于此种考虑提出了双线性SVM。

以软间隔最大化得到的线性支持向量机为例，它的优化函数为：

m i n w, b \sum i = 1 N C [1 - y i (w T x i + b)] + + 1 2 w T w

$\begin{align} \mathop{min}_{w,b}~~\sum_{i=1}^NC\left[ 1-y_i(w^Tx_i+b)\right]_{+}+\frac{1}{2}w^Tw \end{align}$

由于 $tr(W^TW)=vec(W^T)^Tvec(W^T)=w^Tw$ , $tr(W^TX_i)=vec(W^T)^Tvec(X_i^T)=w^Tx_i$ ，其中 $W$ 为回归矩阵， $X_i$ 为样本特征构成的矩阵， $w$ ， $x_i$ 分别为把 $W$ 和 $X_i$ 拉长后的向量形式，优化函数改写为：

m i n w, b \sum i = 1 N C [1 - y i (W T X i + b)] + + 1 2 t r (W T W)

$\begin{align} \mathop{min}_{w,b}~~\sum_{i=1}^NC\left[ 1-y_i(W^TX_i+b)\right]_{+}+\frac{1}{2}tr(W^TW) \end{align}$

为了获取矩阵的结构信息，一种做法是在 $W$ 矩阵上加低秩（low-rank）约束。具体加低秩的办法又有许多，我们在此讲开题中NIPS2009中用到的方法 :
令 $W=W_yW_x^T$ , 这里 $W_x\in R^{q\times d}$ , $W_y\in R^{p\times d}$ , 并且 $W$ 矩阵的秩d满足 $d<min(p,q)$ 。于是我们得到下面一种双线性SVM的最优化优函数：

m i n W x, W y, b \sum i = 1 N C [1 - y i (W T y X i W x + b)] + + 1 2 t r (W x W T y W y W T x)

$\begin{align} \mathop{min}_{W_x,W_y,b}~~\sum_{i=1}^NC\left[ 1-y_i(W_y^TX_iW_x+b)\right]_{+}+\frac{1}{2}tr(W_xW_y^TW_yW_x^T) \end{align}$

SMM

在开题提到的 ICML2015的这篇文章中，作者提出了一种叫支持矩阵机的全新分类方法。其出发点和双线性SVM相同，都是为了最大程度上利用矩阵的固有结构信息，从而提高分类精度。具体的思路也是利用 $W$ 矩阵的低秩性。作者抛弃了将 $W$ 分解为两个矩阵的做法，而是直接用核范数来保证 $W$ 的低秩性。从公式可推倒到下面的目标函数 :