SVM 透彻理解与分析

最新推荐文章于 2024-05-08 19:42:05 发布

晨凫追风

最新推荐文章于 2024-05-08 19:42:05 发布

阅读量8.7k

点赞数 2

分类专栏：机器学习支持向量机

本文链接：https://blog.csdn.net/hit2015spring/article/details/73065775

版权

$\frac{hit2015spring}{晨凫追风}$

欢迎关注我的博客：http://blog.csdn.NET/hit2015spring

支持向量机问题
问题先按照几何间隔最大化的原则引出他的问题为

$\min\limits_{w,b}\qquad \frac 1 2 \|w\|^2$
$s.t.\qquad y_i(w^Tx_i+b)\geqslant 1, \qquad i=1,2,\cdots,m$

上面的约束条件就是一个不等式约束，
可以写成
$0\geqslant 1-y_i(w^Tx_i+b), i=1,2,\cdots,m$

这个是SVM的基本型，或者说是原始问题，寻找这个问题的解法就是需要一些数学的理论，当然在寻找这个解法的过程中，就陆续展开了对于SVM中条件的物理含义的一些解释。

解决该问题，用拉格朗日乘子法和KKT条件导出他的对偶问题，通过解决他的对偶问题，从而解决原始问题。这里面包含的知识有：拉格朗日乘子，kkt条件，对偶理论，凸优化，线性代数，高等数学。当然上面这些是理论上的证明解的存在和解的方向，在求解出真正能用的模型还需要数值分析的一些优化方法，如：牛顿法，梯度下降。。。。。。

首先解决引出他的对偶问题：

对它引入拉格朗日乘子，参考KKT条件和拉格朗日乘子法即对上式添加拉格朗日乘子 $\alpha_i\geqslant0$ 该问题的拉格朗日函数可以写成：
$L(\mathbf{w},b,\alpha)=\frac 1 2 \|w\|^2+ \sum\limits_{i=1}^{m} \alpha_i (1-y_i(\mathbf{w^T x_i}+b))$

对偶问题

先定义一个概念：Wolfe对偶：定义问题 $(1)\sim(3)$ 是凸优化问题 $(4)\sim(5)$ 的对偶

max α, x ▽ x L (x, α) (1)

$\begin{equation} \max\limits_{\mathbf{\alpha},x}\qquad \triangledown_xL(x,\mathbf{\alpha}) \tag{1} \end{equation}$

s . t . ▽ x L (x, α) = 0 (2)

$\begin{equation} s.t.\qquad\triangledown_xL(x,\mathbf{\alpha})=0\tag{2} \end{equation}$

α > 0 (3)

$\begin{equation} \mathbf{\alpha}>0\tag{3} \end{equation}$

这里的 $L(x,\mathbf{\alpha})$ 是 $f(x)$ 的拉格朗日函数

min f (x) (4)

$\begin{equation} \min \qquad f(x)\tag{4} \end{equation}$

s . t . c i (x) \leq 0, i = 1, 2, 3 \dots, p (5)

$\begin{equation} s.t.\qquad c_i(x)\leq0,\qquad i=1,2,3\cdots,p\tag{5} \end{equation}$

再定义一个概念：约束规格：
考虑一般约束问题

min f (x) s . t . c (x) = 0 c (x) \leq 0 (6)

$\begin{equation} \min \qquad f(x) \\ s.t. \qquad c(x) = 0 \\ \qquad c(x) \leq 0 \tag{6} \end{equation}$

在式(6)的可行域 $D=\{x|c_i(x)\leq0,i=1,\cdots,p;c_i(x)=0,i=p+1,\cdots,p+q\}$ ,在这 $p+q$ 个约束函数 $c_1(x),\cdots,c_{p+q}(x)$ 都是可微函数，引进下列两种对约束的限制性条件(约束规格)
1、线性条件： $p+q$ 个约束函数都是线性函数
2、梯度无关条件：梯度向量集 $\{\triangledown c_i(\bar x)|i \in \mathcal{\bar{A}}\}$ 线性无关，其中 $\mathcal{\bar{A}}$ 为 $\bar x$ 处的有效集

在这里引入一个定理： Wolfe对偶定理：
考虑连续可微的凸优化问题 $(4)\sim(5)$ ,其中 $f$ 和每一个 $c_i$ 都是连续可微的凸函数，且定义约束规格中的任意一个约束规格成立，则有以下的：
（1）若原始问题 $(4)\sim (5)$ 有解，则它的Wolfe对偶问题 $(1)\sim(3)$ 有解
（2）若原始问题和它的Wolfe对偶问题分别有可行解 $\bar x \text和 \bar \alpha$ ,则这两个解分别为原始问题和对偶问题最优解的充要条件是它们相应的原始问题和对偶问题的目标函数值相等

对其原始问题引入式 $(1)\sim (3)$ 中的对偶问题（拉格朗日函数的极大极小）
令拉格朗日函数对 $w,b$ 求偏导数，并令他们等于0

w = \sum i = 1 m α i y i x i 0 = \sum i = 1 m α i y i (7)

$\begin{equation} w = \sum\limits_{i=1}^m \alpha_i y_i x_i \\ 0= \sum \limits_{i=1}^m \alpha_i y_i\tag{7} \end{equation}$

把式（7）中的两个代入原始的拉格朗日函数可得到式：

1 2 ∥ w ∥ 2 - ∥ w ∥ 2 + \sum i = 1 m α i + \sum i = 1 m α i y i b (8)

$\begin{equation} \frac{1} {2} \|w\|^2 -\|w\|^2 +\sum \limits_{i=1}^m \alpha_i + \sum \limits_{i=1}^m \alpha_i y_i b\tag{8} \end{equation}$

故得到了SVM基本型的对偶问题为：

最低0.47元/天解锁文章

晨凫追风

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
SVM 透彻理解与分析

hit2015spring晨凫追风\frac{hit2015spring}{晨凫追风}欢迎关注我的博客：http://blog.csdn.NET/hit2015spring支持向量机问题问题先按照几何间隔最大化的原则引出他的问题为minw,b12∥w∥2\min\limits_{w,b}\qquad \frac 1 2 \|w\|^2 s.t.yi(wTxi+b)⩾1,i=1,2,⋯,ms.
复制链接

扫一扫