1.概述
- 是一种二分类模型;
- 基本模型是在特征空间熵的间隔最大的线性分类器;
- 学习策略是,间隔最大化,正则化的合页损失最小化;
- 是求解凸二次规划的最优化算法;
- 包含:线性可分支持向量机(硬间隔支持向量机)、线性支持向量机(软间隔支持向量机)、非线性支持向量机(使用核技术及软间隔最大化)
2.线性可分支持向量机
- 构建它的条件是训练数据线性可分。
- 其学习策略是最大间隔法。
- 线性可分支持向量机的最优解存在且唯一。
- 位于间隔边界上的实例点为支持向量。
- 最优分离超平面由支持向量完全决定。
(1)函数间隔与几何间隔
1) 函数间隔
- 表示分类的确信度和准确性
- 数学表达式: γ ^ i = y i ( w . x i + b ) \hat{\gamma}_i=y_i(w.x_i+b) γ^i=yi(w.xi+b)
2)几何间隔
- 指当 ∣ ∣ w ∣ ∣ 2 = 1 ||w||_2=1 ∣∣w∣∣2=1时的函数间隔,此时间隔是确定的
- ∣ ∣ w ∣ ∣ 2 ||w||_2 ∣∣w∣∣2指 w w w的 L 2 L_2 L2范数
- 数学表达式: γ i = y i ( w ∣ ∣ w ∣ ∣ 2 . x i + b ∣ ∣ w ∣ ∣ 2 ) \gamma_i = y_i(\frac{w}{||w||_2}.x_i+\frac{b}{||w||_2}) γi=yi(∣∣w∣∣2w.xi+∣∣w∣∣2b)
3)选择分离超平面,就是求 ∣ ∣ w ∣ ∣ 2 = 1 ||w||_2=1 ∣∣w∣∣2=1时函数间隔最小的 w 和 b w和b w和b
(2)原始最优化问题
- 输入:线性可分数据集 T , x i ∈ R n , y i ∈ { − 1 , + 1 } , i = 1 , 2 , . . . , N T,x_i\in R^n,y_i\in\lbrace-1,+1\rbrace,i=1,2,...,N T,xi∈Rn,yi∈{ −1,+1},i=1,2,...,N
- 输出:最大间隔分离平面和决策函数
- 实施过程:
a. 构造并求解约束最优化问题,得到最优解 w ∗ w^* w∗, b ∗ b^* b∗
min w , b 1 2 ∥ w ∥ 2 \min _{w, b}\quad \quad \quad \frac{1}{2}\|w\|^{2}\quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad w,bmin21∥w∥2 s . t . y i ( w ⋅ x i + b ) − 1 ⩾ 0 , i = 1 , 2 , ⋯   , N s.t. \quad y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N s.t.yi(w⋅xi+b)−1⩾0,i=1,2,⋯,N
b. 得到分离超平面 w ∗ ⋅ x + b ∗ = 0 w^{*} \cdot x+b^{*}=0 w∗⋅x+b∗=0
c. 得到分类决策函数 f ( x ) = sign ( w ∗ ⋅ x + b ∗ ) f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right) f(x)=sign(w∗⋅x+b∗)
(3)二次规划问题的对偶问题
- 输入:线性可分数据集 T , x i ∈ R n , y i ∈ { − 1 , + 1 } , i = 1 , 2 , . . . , N T,x_i\in R^n,y_i\in\lbrace-1,+1\rbrace,i=1,2,...,N T,xi∈Rn,yi∈{ −1,+1},i=1,2,...,N
- 输出:最大间隔分离平面和决策函数
- 实施过程:
a. 构造并求解约束最优化问题,得到最优解 α ∗ = ( α 1 ∗ , α 2 ∗ , . . . , α N ∗ ) \alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*) α∗=(α1∗,α2∗,...,αN∗)
min 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i \min\quad \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}(x_{i} \cdot x_{j})-\sum_{i=1}^{N} \alpha_{i}\quad \quad \quad \quad min21i=1∑Nj=1∑Nαiα