文章目录
支持向量机SVM
序列最小最优化算法
SVM的学习问题可以形式化为求解凸二次规划问题,这样的凸二次规划问题具有全局最优解,且有许多最优化算法可以求解。但当训练样本容量很大时,这些算法都变得非常低效,以至无法使用。本文介绍序列最小最优化(SMO)算法。
SMO算法要解如下凸二次规划的对偶问题:
min α 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j K ( x i , x j ) − ∑ i = 1 N α i \min_{\alpha} \;\;\; \frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\alpha_i αmin21i=1∑Nj=1∑NαiαjyiyjK(xi,xj)−i=1∑Nαi
s . t . ∑ i = 1 N α i y i = 0 s.t. \;\;\;\;\sum_{i=1}^N\alpha_iy_i=0 s.t.i=1∑Nαiyi=0
0 ≤ α i ≤ C , i = 1 , 2 , . . . , N 0 \leq\alpha_i\leq C,\;\;\;i=1,2,...,N 0≤αi≤C,i=1,2,...,N
在这个问题中,变量是拉格朗日乘子,一个变量 α i \alpha_i αi对应于一个样本点 ( x i , y i ) (x_i,y_i) (xi,yi),变量总数等于训练样本容量 N N N。
SMO算法是一种启发式算法,其基本思路是:如果所有变量的解都满足此最优化问题的KKT条件,则找到了这个问题的解,因为KKT条件是该最优化问题的充要条件。否则,选择两个变量,固定其它变量,针对这两个变量构建一个二次规划问题,这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解,因为这会使得原始二次规划问题的目标函数值变得更小。重要的是,这时子问题可以通过解析方法求解,大大提高算法的计算速度。子问题有两个变量,一个是违反KKT条件最严重的那个,另一个由约束条件自动确定。如此,SMO算法将原问题不断分解成子问题求解,进而达到求解原问题的目的。子问题的两个变量只有一个是自由变量,一个确定后另一个也随之确定。
整个SMO算法包括两部分:求解两个变量二次规划的解析方法和选择变量的启发式方法。
两个变量二次规划的求解方法
不失一般性,假设两个变量是 α 1 , α 2 \alpha_1,\alpha_2 α1,α2,其它变量 α i ( i = 3 , 4 , . . . , N ) \alpha_i(i=3,4,...,N) αi(i=3,4,...,N)是固定的。于是SMO的最优化问题的子问题可以写成:
min α 1 , α 2 W ( α 1 , α 2 ) = 1 2 K 11 α 1 2 + 1 2 K 22 α 2 2 + y 1 y 2 K 12 α 1 α 2 − ( α 1 + α 2 ) + y 1 α 1 ∑ i = 3 N y i α i K i 1 + y 2 α 2 ∑ i = 3 N y i α i K i 2 (1) \min_{\alpha_1, \alpha_2} \;\;\;W(\alpha_1, \alpha_2) = \frac12K_{11}\alpha_1^2 + \frac12K_{22}\alpha_2^2 +y_1y_2K_{12}\alpha_1\alpha_2-(\alpha_1+\alpha_2)+y_1\alpha_1\sum_{i=3}^Ny_i\alpha_iK_{i1}+y_2\alpha_2\sum_{i=3}^Ny_i\alpha_iK_{i2} \tag{1} α1,α2minW(α1,α2)=21K11α12+21K22α22+y1y2K12α1α2−(α1+α2)+y1α1i=3∑NyiαiKi1+y2α