理解LIBSVM: A Library for Support Vector Machines

最新推荐文章于 2023-06-22 09:08:49 发布

chensheng312

最新推荐文章于 2023-06-22 09:08:49 发布

阅读量3.6k

点赞数 3

分类专栏：办公

办公专栏收录该内容

11 篇文章 4 订阅

订阅专栏

为了更好的利用由 Chih-Chung Chang and Chih-Jen Lin 提供的libsvm库，该博文主要理解其提供的《LIBSVM: A Library for Support Vector Machines》文档。在理解该文档之前，简单梳理支持向量机（Support Vector Machines： SVM）

1. SVM基础知识
1.1基础的SVM是用来处理二分类问题，分类器的目标是找到一个超平面

w T x + b = 0

$w^{T}x+b=0$ 其中 $x$ 为训练数据集，{w，b}为训练参数。对于二分类问题，label：y={-1,1}.
由分界面定义分类函数

f(x) $f(x)$ ：

f (x) = w T x + b

$f(x)=w^{T}x+b$

f(x)<0,f(x)=0(分界面),f(x)>0 $f(x)<0, f(x)=0(分界面), f(x)>0$ 。
数据样本到超平面的距离：
　　　　　　　　　　　　　　　这里写图片描述

　　　　　　　　　　　　(图片来源：http://eric-gcm.iteye.com/blog/1981771）

γ = w T x + b ∥ w ∥ = f ( x ) ∥ w ∥

$\gamma =\frac{w^{T}x+b}{\left \| w \right \|}=\frac{f(x)}{\left \| w \right \|}$
目标优化函数（详细解释分析见http://eric-gcm.iteye.com/blog/1981771）：

m a x 1 ∥ w ∥, s . t ., y i (w T x i + b) ⩾ 1, i = 1, . . ., n

$max\frac{1}{\left \| w \right \|},　s.t.,y_{i}(w^{T}x_{i}+b)\geqslant 1,　i=1,...,n$ 问题等价于在约束不变下

m i n 1 2 ∥ w ∥ 2

$min\frac{1}{2}\left \| w \right \|^{2}$ (

∥w∥2=wTw $\left \| w \right \|^{2}=w^{T}w$ )在该问题下，求解算法的复杂度与样本维度有关，通过求原问题的对偶问题优化求解过程。针对SVM求解这样做的优点：优化求解；方便SVM引入核函数解决非线性分类问题。
对带约束条件的问题，通过引入拉格朗日乘子将约束问题转换为非约束问题，优化函数如下：

L (w, b, α) = 1 2 ∥ w ∥ 2 - \sum i = 1 n α i (y i (w T x i + b) - 1)

$L\left ( w,b,\alpha \right )=\frac{1}{2}\left \| w \right \|^{2}-\sum_{i=1}^{n}\alpha _{i}\left ( y_{i}\left ( w^{T}x_{i}+b \right ) -1\right )$
原问题等价为：

m i n w, b m a x α i \geq 0 L (w, b, α)

$min_{w,b}max_{\alpha _{i\geq 0}}L\left ( w,b,\alpha \right )$
对偶形式：

m a x α i \geq 0 m i n w, b L (w, b, α)

$max_{\alpha _{i\geq 0}}min_{w,b}L\left ( w,b,\alpha \right )$
通过对对偶优化函数求偏导：

\partial L \partial w = 0 \Rightarrow w = \sum i = 1 n α i y i x i

$\frac{\partial L}{\partial w}=0\Rightarrow w=\sum_{i=1}^{n}\alpha _{i}y_{i}x_{i}$

\partial L \partial b = 0 \Rightarrow \sum i = 1 n α i y i = 0

$\frac{\partial L}{\partial b}=0\Rightarrow \sum_{i=1}^{n}\alpha _{i}y_{i}=0$
推出：

L (w, b, a) = \sum i = 1 n α i - 1 2 \sum i, j = 1 n α i α j y i y j x T i x j

$L\left ( w,b,a \right ) = \sum_{i=1}^{n}\alpha _{i}-\frac{1}{2}\sum_{i,j=1}^{n}\alpha _{i}\alpha _{j}y_{i}y_{j}x_{i}^{T}x_{j}$
接下来对偶问题成为函数对

α $\alpha$ 求极大，并且在前面的推到中，有与

α $\alpha$ 的等式与不等式，这些式子中含有原问题的目标变量：

L (w, b, a) = 1 2 \sum i = 1 n α i - 1 2 \sum i, j = 1 n α i α j y i y j x T i x j

$L\left ( w,b,a \right ) = \frac{1}{2}\sum_{i=1}^{n}\alpha _{i}-\frac{1}{2}\sum_{i,j=1}^{n}\alpha _{i}\alpha _{j}y_{i}y_{j}x_{i}^{T}x_{j}$

s . t . \sum i = 1 n α i y i = 0

$s.t.　\sum_{i=1}^{n}\alpha _{i}y_{i}=0$

α i \geq 0, i = 1, 2, . . ., n

$\alpha _{i}\geq 0,　i=1,2,...,n$
构造拉格朗日函数求极值，对

α $\alpha$ 求导（令求导=0），算出

α $\alpha$ ，从而得出{w,b}
由于

w=∑ni=1αiyixi $w=\sum_{i=1}^{n}\alpha _{i}y_{i}x_{i}$ ，分类函数表示为：

f (x) = \sum i = 1 n α i y i ⟨ x i, x ⟩ + b

$f\left ( x \right )=\sum_{i=1}^{n}\alpha _{i}y_{i}\left \langle x_{i},x \right \rangle+b$
1.2对于线性不可分（噪声）
加入松弛变量

ξ $\xi$ ，使得原约束成为

y(wTw+b)≥1−ξ $y\left ( w^{T}w+b \right )\geq 1-\xi$ (

ξ $\xi$ 为松弛变量)。对加入松弛变量的SVM，

m i n w, b 1 2 ∥ w ∥ 2 + C \sum i = 1 n ξ i (C 为 常 量)

$min_{w,b}\frac{1}{2}\left \| w \right \|^{2}+C\sum_{i=1}^{n}\xi _{i}　　\left (C 为常量\right )$

y i (w T x i + b) \geq 1 - ξ i

$y_{i}\left ( w^{T}x_{i} +b\right )\geq 1-\xi _{i}$

ξ i \geq 0

$\xi _{i}\geq 0$

i = 1, 2, . . ., n

$i=1,2,...,n$

C∑ni=1ξi $C\sum_{i=1}^{n}\xi _{i}$ 为“惩罚项”，松弛变量越大，对目标函数的惩罚力度越大。
将约束求解转换为非约束：

L (w, b, ξ, α, r) = 1 2 ∥ w ∥ 2 + C \sum i = 1 n ξ i - \sum i = 1 n α i (y i (w T x i + b) - 1 + ξ i) - \sum i = 1 n r i ξ i

$L\left ( w,b,\xi ,\alpha ,r \right )=\frac{1}{2}\left \| w \right \|^{2}+C\sum_{i=1}^{n}\xi _{i}-\sum_{i=1}^{n}\alpha _{i}\left (y _{i}\left ( w^{T}x_{i}+b \right ) -1+\xi _{i}\right )-\sum_{i=1}^{n}r_{i}\xi _{i}$ 求偏导：

\partial L \partial w = w - \sum i = 1 n α i y i x i = 0 \Rightarrow w = \sum i = 1 n α i y i x i

$\frac{\partial L}{\partial w}=w-\sum_{i=1}^{n}\alpha _{i}y_{i}x_{i} =0\Rightarrow w=\sum_{i=1}^{n}\alpha _{i}y_{i}x_{i}$

\partial L \partial b = - \sum i = 1 n α i y i = 0

$\frac{\partial L}{\partial b}=-\sum_{i=1}^{n}\alpha _{i}y_{i} =0$

\partial L \partial ξ i = C - α i - r i = 0

$\frac{\partial L}{\partial \xi _{i}}=C-\alpha _{i}-r_{i} =0$ 将值带入函数，且（

∥w∥2=wTw $\left \| w \right \|^{2}=w^{T}w$ ）,故对偶形式为：

m a x α \sum i = 1 n α i - 1 2 \sum i, j = 1 n α i α j y i y j x T i x j (x T i x j = ⟨ x i x j ⟩)

$max_{\alpha }\sum_{i=1}^{n}\alpha _{i}-\frac{1}{2}\sum_{i,j=1}^{n}\alpha _{i}\alpha _{j}y_{i}y_{j}x_{i}^{T}x_{j}　\left ( x_{i}^{T}x_{j} = \left \langle x_{i}x_{j} \right \rangle \right )$

s . t . \sum i = 1 n α i y j = 0

$s.t.\sum_{i=1}^{n}\alpha _{i}y_{j}=0$

0 \leq α i \leq C, i = 1, 2, . . ., n

$0\leq \alpha_{i}\leq C, i=1,2,...,n$
1.3对于线性不可分（数据非线性性）
SVM处理非线性数据通过引入核函数

K(,) $K\left ( , \right )$ 将数据映射（map)到高维，解决二分类中数据线性不可分问题。由于对偶求解中保证了

(xTixj=⟨xixj⟩) $\left ( x_{i}^{T}x_{j} = \left \langle x_{i}x_{j} \right \rangle \right )$ 将线性可分通过

∅(⋅) $\emptyset \left ( \cdot \right )$ 核函数映射，记为

K(xi,xj) $K\left (x_{i},x_{j} \right )$ .(为了避免映射的维度灾难，，数据的映射计算是先直接在原来的低维空间计算，然后进行映射)，从而，分类函数为：

f (x) = \sum i = 1 n α i y i K (x i, x j) + b

$f\left ( x \right )=\sum_{i=1}^{n}\alpha _{i}y_{i}K\left ( x_{i},x_{j} \right ) +b$
原问题的对偶问题：

m a x α \sum i = 1 n α i - 1 2 \sum i = i, j n α i α j y i y j K (x i, x j)

$max_{\alpha }\sum_{i=1}^{n}\alpha _{i}-\frac{1}{2}\sum_{i=i,j}^{n}\alpha _{i}\alpha _{j}y_{i}y_{j}K\left ( x_{i},x_{j} \right )$

s . t . \sum i = 1 n α i y i = 0

$s.t.　\sum_{i=1}^{n}\alpha _{i}y_{i}=0$

α i \geq 0, i = 1, 2, . . ., n

$\alpha _{i}\geq 0,　i=1,2,...,n$
2. Libsvm: a library for support vector machines
- SVC: support vector classification (two-class and multi-class)
- SVR: support vector regression
- One-class SVM.
2.1.1 C-Sopport Vector Classification 松弛+核函数
2分类，label:

yi∈{1,−1} $y_{i}\in \left \{ 1, -1 \right \}$
原优化问题：

m i n w, b, ξ 1 2 w T w + C \sum i = 1 l ξ i

$min_{w,b,\xi}\frac{1}{2}w^{T}w+C\sum_{i=1}^{ l}\xi_{i}$

s . t . y i (w T \emptyset (x i) + b) \geq 1 - ξ i,

$s.t. 　y_{i} \left ( w^{T}\emptyset \left( x_{i} \right ) +b \right )\geq 1-\xi_{i},$

0 \leq α i \leq C, i = 1, . . ., l

$0\leq \alpha _{i} \leq C,　　i=1,...,l$
将带约束的原问题转换为非约束优化问题：

L (w, b, ξ, α, r) = 1 2 w T w + C \sum i = 1 l ξ i - \sum i = 1 l α i (y i (w T \emptyset (x i) + b) - 1 + ξ i) - \sum i = 1 l r i ξ i

$L\left(w,b,\xi,\alpha,r \right)=\frac{1}{2} w^{T}w+ C\sum_{i=1}^{ l}\xi_{i} -\sum_{i=1}^{l}\alpha_{i}\left( y_{i} \left( w^{T}\emptyset \left( x_{i}\right) +b\right) -1 + \xi_{i}\right) - \sum_{i=1}^{l}r_{i}\xi_{i}$
原问题等价为（最大参考KKT）：

m i n w, b m a x α i, ξ i L (w, b, α)

$min_{w,b}max_{\alpha_{i},\xi_{i}}L\left( w,b,\alpha \right)$
对偶问题：

m a x α i, ξ i m i n w, b L (w, b, α)

$max_{\alpha_{i},\xi_{i}}min_{w,b}L\left( w,b,\alpha \right)$
求导：

\partial L \partial w = w - \sum i = 1 l α i y i \emptyset (x i) = 0 \Rightarrow w = \sum i = 1 l α i y i \emptyset (x i)

$\frac{\partial L}{\partial w} = w - \sum_{i=1}^l\alpha_{i}y_{i}\emptyset \left( x_{i} \right) = 0\Rightarrow w=\sum_{i=1}^l\alpha_{i}y_{i}\emptyset \left( x_{i} \right)$

\partial L \partial b = - \sum i = 1 l α i y i = 0 \Rightarrow \sum i = 1 l α i y i = 0

$\frac{\partial L}{\partial b} = - \sum_{i=1}^l \alpha_{i}y_{i} = 0 \Rightarrow \sum_{i=1}^l \alpha_{i}y_{i} = 0$

\partial L \partial ξ i = C - α i - r i = 0

$\frac{\partial L}{\partial \xi_{i}} = C - \alpha_{i} - r_{i} =0$ 带入计算：

$max_{\alpha} L\left(\alpha\right) = \frac{1}{2}w^{T}\left( \sum_{i=1}^l \alpha _{i} y_{i}\emptyset \left(x_{i} \right) \right) + C \sum_{i=1}^l \xi_{i} - \sum_{i=1}^l \alpha_{i} \left( y_{i} \left( w^{T}\emptyset \left( x_{i} \right) + b\right)-1 +\xi_{i} \right) \\ - \sum_{i=1}^l \left( C-\alpha_{i}\right) \xi_{i}\\ =w^{T} \left( \frac{1}{2} \sum_{i=1}^l\alpha_{i}y_{i} \emptyset\left( x_{i} \right)\right) + C\sum_{i=1}^l \xi_{i} -\sum_{i=1}^l C\xi_{i} - \sum_{i=1}^l \alpha_{i}y_{i}b + \sum_{i=1}^l \alpha_{i} \\- \sum_{i=1}^l \alpha_{i}\xi_{i} + \sum_{i=1}^l \alpha_{i}\xi_{i} \\ =\sum_{i=1}^l \alpha_{i} - \frac{1}{2}w^{T}\sum_{i=1}^l\alpha_{i}y_{i}\emptyset \left( x_{i} \right) \\ = \sum_{i=1}^l \alpha_{i} - \frac{1}{2}\sum_{i,j=1}^l\alpha_{i}y_{i}\emptyset \left( x_{i} \right)^{T} \alpha_{j}y_{j}\emptyset \left( x_{j} \right) \\ = \sum_{i=1}^l \alpha_{i} - \frac{1}{2}\sum_{i,j=1}^l\alpha_{i}y_{i}y_{j}\emptyset \left( x_{i} \right)^{T} \emptyset \left( x_{j} \right) \alpha_{j} \\ = e^{T}\alpha - \frac{1}{2} \alpha^{T}Q\alpha$
其中： $e=\left[ 1,...,1 \right]^{T}, Q_{i,j} \equiv y_{i}y_{j}K \left(x_{i},x_{j} \right), K\left(x_{i},x_{j} \right) \equiv \emptyset \left( x_{i} \right)^{T} \emptyset \left( x_{j} \right)$
对偶问题：

m i n α 1 2 α T Q α - e T α

$min_{\alpha} \frac{1}{2} \alpha^{T} Q \alpha - e^{T}\alpha$
前面的推导中有对偶优化问题的约束，约束条件：

s . t . y T α = 0

$s.t. 　　y^{T}\alpha =0$

0 \leq α i \leq C, i = 1, . . ., l

$0 \le \alpha_{i} \le C, i=1,...,l$
构造拉格朗日函数求极值，对

α $\alpha$ 求导（令求导 = 0），算出

α $\alpha$ ，从而得出{w,b}
由于

w=∑li=1αiyi∅(xi) $w=\sum_{i=1}^l \alpha_{i}y_{i} \emptyset \left( x_{i} \right)$ ，分类函数表示为：

f (x) = \sum i = 1 l α i y i K (x i, x j) + b

$f\left(x \right) = \sum_{i=1}^l \alpha_{i}y_{i}K \left( x_{i},x_{j} \right) + b$
由于

y∈{−1,1} $y\in\left \{-1,1 \right\}$ ，正类（1）与负类（-1），利用符号函数（sgn）：

s g n (w T \emptyset (x) + b) = s g n (\sum i = 1 l y i α i K (x i, x) + b)

$sgn\left( w^{T} \emptyset \left( x \right) + b \right) = sgn \left( \sum_{i=1}^l y_{i} \alpha_{i} K\left(x_{i},x \right) + b \right)$
—-（未完）—–

chensheng312

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
理解LIBSVM: A Library for Support Vector Machines

为了更好的利用由 Chih-Chung Chang and Chih-Jen Lin 提供的libsvm库，该博文主要理解其提供的《LIBSVM: A Library for Support Vector Machines》文档。
复制链接

扫一扫