10-SVM

  • 点到超平面的距离
    设n维空间的超平面方程为: w T x + b = 0 w^Tx+b=0 wTx+b=0, 其中w是这个超平面的法向量 w = ( w 1 , w 2 , w 3 , . . ) T w=(w_1,w_2,w_3,..)^T w=(w1,w2,w3,..)T, 有点x0到超平面的距离为:
    ∣ w T x 0 + b ∣ ∣ ∣ w ∣ ∣ \frac{|w^Tx_0+b|}{||w||} wwTx0+b
    推导过程:
    令x’是超平面上的一点,点x到超平面的距离就是向量(x-x’)在法线方向上的投影,即 ||x-x’||cos(a) ,a是(x-x’)与法向量的夹角。我们知道两个向量的內积 w T ( x − x ′ ) = ∣ ∣ w ∣ ∣ . ∣ ∣ ( x − x ′ ) ∣ ∣ . c o s ( a ) w^T(x-x')= ||w|| .||(x-x')||. cos(a) wT(xx)=w.(xx).cos(a),所以有 点到超平面的距离d
    d = w T ( x − x ′ ) ∣ ∣ w ∣ ∣ d=\frac{w^T(x-x')}{||w||} d=wwT(xx)
    x’ 满足 w T x + b = 0 w^Tx+b=0 wTx+b=0 ,所有
    d = w T x + b ∣ ∣ w ∣ ∣ d=\frac{w^Tx+b}{||w||} d=wwTx+b

  • 变形:两个平行超平面之间的距离
    w T x 1 + b = 1 w^Tx_1+b=1 wTx1+b=1, w T x 2 + b = − 1 w^Tx_2+b=-1 wTx2+b=1 是两个平行的超平面,则这两个平面的距离是 2 ∣ ∣ w ∣ ∣ \frac{2}{||w||} w2
    w T ( x 1 − x 2 ) = 2 w^T(x_1-x_2)=2 wT(x1x2)=2
    w T ( x 1 − x 2 ) ∣ ∣ w ∣ ∣ = 2 ∣ ∣ w ∣ ∣ \frac{w^T(x_1-x_2)}{||w||}=\frac{2}{||w||} wwT(x1x2)=w2

支持向量机

  • 目标是最大化 2 ∣ ∣ w ∣ ∣ \frac{2}{||w||} w2 同时保证所有样本正确分类 , w是超平面的参数。样本正确分类 等价于 满足等式 y i ( ∑ w i x i + b ) > = 1 y_i(\sum w_ix_i+b)>=1 yi(wixi+b)>=1.
  • 最大化 2 ∣ ∣ w ∣ ∣ \frac{2}{||w||} w2 可以等价为 最小化 1 / 2 ∣ ∣ w ∣ ∣ 2 1/2||w||^2 1/2w2, 最小化 1 / 2 ∣ ∣ w ∣ ∣ 2 1/2||w||^2 1/2w2会使问题变得简单。
  • 类似于 最小化w的长度的平方,并限制于某些条件 这种形式的最优化问题 称为二次规划(quadratic programming)问题。
    求解二次规划问题,人们已经有了直截了当的方式。
  • 还可以将上面二次规划问题再次转化为 标准的二次规划的问题形式。最大化 W ( α ) W(\alpha) W(α) , α \alpha α是新参数
    W ( α ) = ∑ i α − 1 / 2 ∑ i , j α i α j y i y j x i T x j W(\alpha)=\sum_i \alpha-1/2\sum_{i,j} \alpha_i\alpha_jy_iy_jx_i^Tx_j W(α)=iα1/2i,jαiαjyiyjxiTxj
    s t . α i > 0 , ∑ i α i y i = 0 st. \alpha_i>0,\sum_i\alpha_iy_i=0 st.αi>0,iαiyi=0
  • 找到最大化这个方程的 α \alpha α后,可以还原原方程的w参数(超平面的参数): w = ∑ i α i x i y i w=\sum_i\alpha_ix_iy_i w=iαixiyi
  • 绝大部分的 α i \alpha_i αi都是 0 , α i \alpha_i αi不为0的那些点就被称为支持向量

核函数

在这里插入图片描述

  • 向量q 在平面上,因而它有两个分量(q1,q2),利用q 产生一个三维向量:
    Φ ( q ) = &lt; q 1 2 , q 2 2 , 2 q 1 q 2 &gt; \Phi (q)=&lt;q_1^2,q_2^2,\sqrt2q_1q_2&gt; Φ(q)=<q12,q22,2 q1q2>
    这个过程实际上并没有增加新的信息。
  • 将这些点从两个维度投影到三个维度,基本上获得所有正点并将它们沿第三个维度上移,所有的负点下移,这样就可以用超平面分割
  • 內积是我们定义相似度similarity的方式,
  • 将数据投影到更高维度的空间中,在那里进行比较,只需对算法做一点小小改变。点积可以转化成其他相似性度量,称之为核函数: x i T x j x_i^Tx_j xiTxj --> K ( x i , x j ) K(x_i,x_j) K(xi,xj)
  • 核函数必须满足mercer condition

11-SVM

在这里插入图片描述

  • 增加一个新特征 z = x 2 + y 2 z=x^2+y^2 z=x2+y2, SVM能够以圆的形式学习出非线性的决策边界

在这里插入图片描述

  • 对于以上数据集,应增加新特征 |x|

class sklearn.svm.SVC(C=1.0, kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=’ovr’, random_state=None)

gamma : float, optional (default=’auto’)
Kernel coefficient for ‘rbf’, ‘poly’ and ‘sigmoid’.

  • 参数C: 决策边界的平滑度和训练数据分类的正确性 的折中,C的值越大,越偏向分类的正确性,越不能容忍出现误差,容易过拟合
  • 参数gamma:gamma是选择RBF函数作为kernel后,该函数自带的一个参数。隐含地决定了数据映射到新的特征空间后的分布,gamma越大,支持向量越少,gamma值越小,支持向量越多。支持向量的个数影响训练与预测的速度

拉格朗日乘子法

拉格朗日乘数法是 求多元函数在在其变量受到一个或多个约束条件下的极值的方法。通过引入拉格朗日算子,将d个变量,k个约束条件的最优化问题转化为k+d个变量的无约束优化问题。

无约束优化

对于变量 x ∈ R N x\in\R^N xRN的函数 f(x) ,无约束优化问题如下: min ⁡ x f ( x ) \min_xf(x) xminf(x)
根据 Fermat 定理,直接找到使目标函数得 0 的点即可 即 ∇ x f ( x ) = 0 ∇_xf(x)=0 xf(x)=0 ,如果没有解析解的话,可以使用梯度下降或牛顿方法等迭代的手段来使 x 沿负梯度方向逐步逼近极小值点。

等式约束优化

当目标函数加上约束条件之后,问题就变成如下形式:
min ⁡ x f ( x ) \min_x f(x) xminf(x)
s . t .   h i ( x ) = 0 , i = 1 , 2 , . . . , m s.t. \ h_i(x)=0,i=1,2,...,m s.t. hi(x)=0,i=1,2,...,m

  • 约束条件会将解的范围限定在一个可行域,此时不一定能找到使得 ∇ x f ( x ) ∇_xf(x) xf(x)为 0 的点,只需找到在可行域内使得 f(x) 最小的值即可
  • 常用的方法即为拉格朗日乘子法,该方法首先引入拉格朗日乘子( Lagrange Multiplier) α ∈ R m α∈\R^m αRm ,构建 Lagrangian 如下:
    L ( x , α ) = f ( x ) + ∑ i m α i h ( x ) L(x,α)=f(x)+\sum_i^mα_ih(x) L(x,α)=f(x)+imαih(x)
  • 绿线是约束条件h(x),在最优点处,h(x)的法向量(梯度)与f(x)的法向量必定平行(即两者相切),于是有(或+): ∇ x f ( x ) − α ∇ x h ( x ) = 0 ∇_xf(x)-α∇_xh(x)=0 xf(x)αxh(x)=0
    在这里插入图片描述
  • 求解:(其中 ∇ α L ( x , α ) = h ( x ) = 0 ∇_αL(x,α)=h(x)=0 αL(x,α)=h(x)=0即约束条件)
    { ∇ x L ( x , α ) = 0 ∇ α L ( x , α ) = 0 \begin{cases} ∇_xL(x,α)=0\\ ∇_αL(x,α)=0&amp; \end{cases} {xL(x,α)=0αL(x,α)=0
    那么一个带等式约束的优化问题就通过拉格朗日乘子法转化成无约束的优化问题求解
不等式约束优化
  • 任何原始问题约束条件无非最多3种,等式约束,大于号约束,小于号约束,而这三种最终通过将约束方程化简化为两类:约束方程等于0和约束方程小于0
  • 不等式约束优化:
    min ⁡ x f ( x ) \min_x f(x) xminf(x)
    s . t . h ( x ) ≤ 0 s.t.\\ h(x)\le0 s.t.h(x)0
  • 拉格朗日函数为: L ( x , λ ) = f ( x ) + λ h ( x ) L(x,\lambda)=f(x)+\lambda h(x) L(x,λ)=f(x)+λh(x)
  • 当可行解 x 落在 g(x)<0 的区域内,此时直接极小化 f(x) 即可,即约束条件不起作用,即 λ = 0 \lambda=0 λ=0
  • 当可行解 x 落在 g(x)=0 即边界上,此时等价于等式约束优化问题。即 h ( x ) = 0 h(x)=0 h(x)=0
  • 于是有: λ h ( x ) = 0 \lambda h(x)=0 λh(x)=0
  • 在等式约束优化中,约束函数与目标函数的梯度只要满足平行即可,而在不等式约束中则不然,若 λ≠0,这便说明 可行解 x 是落在约束区域的边界上的,这时可行解应尽量靠近无约束时的解
  • 梯度方向就是函数值增大的方向,我们的目标是要最小化目标函数,如果最优解在约束边界上,表明g(x)<0 的区域内的目标函数的值要大于目标函数在边界上的值,所以目标函数的梯度应该与约束函数的梯度方向相反,有: f ( x ) + λ h ( x ) = 0 λ &gt; 0 f(x)+\lambda h(x)=0\\\lambda &gt;0 f(x)+λh(x)=0λ>0
    在这里插入图片描述
  • 形式化的不等式约束优化问题: min ⁡ x   f ( x ) s . t .     h i ( x ) = 0 ,   i = 1 , 2 , . . . , m              g j ( x ) ≤ 0 ,   j = 1 , 2 , . . . , n \begin{aligned} &amp;\min_x \ f(x) \\ &amp;s.t. \ \ \ h_i(x) = 0 , \ i = 1,2,...,m \ \\ &amp; \ \ \ \ \ \ \ \ \ \ g_j(x) \le 0, \ j = 1,2,...,n \end{aligned} xmin f(x)s.t.   hi(x)=0, i=1,2,...,m           gj(x)0, j=1,2,...,n
  • 列出 Lagrangian 得到无约束优化问题:
    L ( x , α , β ) = f ( x ) + ∑ i = 1 m α i h i ( x ) + ∑ j = 1 n β i g i ( x ) L(x,\alpha,\beta) =f(x) + \sum_{i=1}^m \alpha_i h_i(x) + \sum_{j=1}^n\beta_ig_i(x) L(x,α,β)=f(x)+i=1mαihi(x)+j=1nβigi(x)
  • 加上不等式约束后可行解 x 需要满足的就是以下的 KKT 条件:
    ∇ x L ( x , α , β ) = 0 β j g j ( x ) = 0 ,   j = 1 , 2 , . . . , n h i ( x ) = 0 ,   i = 1 , 2 , . . . , m g j ( x ) ≤ 0 ,   j = 1 , 2 , . . . , n β j ≥ 0 ,   j = 1 , 2 , . . . , n \begin{aligned} \nabla_x L(x,\alpha,\beta) &amp;= 0 \\ \beta_jg_j(x) &amp;= 0 , \ j=1,2,...,n\\ h_i(x)&amp;= 0 , \ i=1,2,...,m \\ g_j(x) &amp;\le 0 , \ j=1,2,...,n \\ \beta_j &amp;\ge 0 , \ j=1,2,...,n \\ \end{aligned} xL(x,α,β)βjgj(x)hi(x)gj(x)βj=0=0, j=1,2,...,n=0, i=1,2,...,m0, j=1,2,...,n0, j=1,2,...,n
例子
  • 等式约束:

    • 1 问题
      m i n f = 2 x 1 2 + 3 x 2 2 + 7 x 3 2 s . t . 2 x 1 + x 2 = 1 2 x 2 + 3 x 3 = 2 min \quad f = 2x_1^2+3x_2^2+7x_3^2 \\s.t. \quad 2x_1+x_2 = 1 \\ \quad \quad \quad 2x_2+3x_3 = 2 minf=2x12+3x22+7x32s.t.2x1+x2=12x2+3x3=2
    • 2
      m i n f = 2 x 1 2 + 3 x 2 2 + 7 x 3 2 + α 1 ( 2 x 1 + x 2 − 1 ) + α 2 ( 2 x 2 + 3 x 3 − 2 ) min \quad f = 2x_1^2+3x_2^2+7x_3^2 +\alpha _1(2x_1+x_2- 1)+\alpha _2(2x_2+3x_3 - 2) minf=2x12+3x22+7x32+α1(2x1+x21)+α2(2x2+3x32)
    • 3
      ∂ f ∂ x 1 = 4 x 1 + 2 α 1 = 0 ⇒ x 1 = − 0.5 α 1 ∂ f ∂ x 2 = 6 x 2 + α 1 + 2 α 2 = 0 ⇒ x 2 = − α 1 + 2 α 2 6 ∂ f ∂ x 3 = 14 x 3 + 3 α 2 = 0 ⇒ x 3 = − 3 α 2 14 \dfrac{\partial f}{\partial x_1}=4x_1+2\alpha_1=0\Rightarrow x_1=-0.5\alpha_1 \\ \dfrac{\partial f}{\partial x_2}=6x_2+\alpha_1+2\alpha_2=0\Rightarrow x_2=-\dfrac{\alpha_1+2\alpha_2}{6} \\ \dfrac{\partial f}{\partial x_3}=14x_3+3\alpha_2=0\Rightarrow x_3=-\dfrac{3\alpha_2}{14} x1f=4x1+2α1=0x1=0.5α1x2f=6x2+α1+2α2=0x2=6α1+2α2x3f=14x3+3α2=0x3=143α2
    • 4 把它在代到约束条件中去,可以看到,2个变量两个等式,可以求解,最终可以得到 α 1 = − 0.39 , α 2 = − 1.63 \alpha_1=-0.39,\alpha_2=-1.63 α1=0.39,α2=1.63
  • 不等式约束:

    • 1 问题: m i n f = x 1 2 − 2 x 1 + 1 + x 2 2 + 4 x 2 + 4 s . t . x 1 + 10 x 2 &gt; 10 10 x 1 − 10 x 2 &lt; 10 min \quad f = x_1^2-2x_1+1+x_2^2+4x_2+4 \\s.t. \quad x_1+10x_2 &gt; 10 \\ \quad \quad \quad 10 x_1-10x_2 &lt; 10 minf=x122x1+1+x22+4x2+4s.t.x1+10x2>1010x110x2<10
    • 2 L ( x , α ) = f ( x ) + α 1 g 1 ( x ) + α 2 g 2 ( x ) = x 1 2 − 2 x 1 + 1 + x 2 2 + 4 x 2 + 4 + α 1 ( 10 − x 1 − 10 x 2 ) + α 2 ( 10 x 1 − x 2 − 10 ) L(x,\alpha) = f(x) + \alpha_1g1(x)+\alpha_2g2(x)\\ =x_1^2-2x_1+1+x_2^2+4x_2+4+ \alpha_1(10-x_1-10x_2 ) +\\\alpha_2(10x_1-x_2 - 10) L(x,α)=f(x)+α1g1(x)+α2g2(x)=x122x1+1+x22+4x2+4+α1(10x110x2)+α2(10x1x210)
    • 3 此时分别对x1、x2求导数: ∂ L ∂ x 1 = 2 x 1 − 2 − α 1 + 10 α 2 = 0 ⇒ x 1 = 0.5 ( α 1 − 10 α 2 + 2 ) ∂ L ∂ x 2 = 2 x 2 + 4 − 10 α 1 − α 2 = 0 ⇒ x 2 = 0.5 ( 10 α 1 + α 2 − 4 ) \dfrac{\partial L}{\partial x_1}=2x_1-2-\alpha_1+10\alpha_2=0\Rightarrow x_1=0.5(\alpha_1-10\alpha_2+2) \\ \dfrac{\partial L}{\partial x_2}=2x_2+4-10\alpha_1-\alpha_2=0\Rightarrow x_2=0.5(10\alpha_1+\alpha_2-4) x1L=2x12α1+10α2=0x1=0.5(α110α2+2)x2L=2x2+410α1α2=0x2=0.5(10α1+α24)
    • 4 还有一个条件就是α∗g(x)=0,那么也就是 α 1 ∗ g 1 ( x ) = α 1 ∗ ( 10 − x 1 − 10 x 2 ) = 0 α 2 ∗ g 2 ( x ) = α 2 ∗ ( 10 x 1 − x 2 − 10 ) = 0 \alpha_1*g_1(x)=\alpha_1*(10-x_1-10x_2)=0\\\alpha_2*g_2(x)=\alpha_2*(10x_1-x_2 - 10)=0 α1g1(x)=α1(10x110x2)=0α2g2(x)=α2(10x1x210)=0
    • (1)α1=α2=0α1=α2=0,那么看上面的关系可以得到x1=1,x2=−1x1=1,x2=−1,再把两个x带到不等式约束,发现第一个就是需要满足(10-1+20=29<0)显然不行,29>0的。舍弃
      (2)g1(x)=g2(x)=0g1(x)=g2(x)=0,带进去解得,x1=110/101;x2=90/101,再带回去求解α1,α2α1,α2,发现α1=58/101,α2=4/101α1=58/101,α2=4/101,它们满足大于0的条件,那么显然这组解是可以的。
      (3)其他两种情况再去讨论发现是不行的。

拉格朗日对偶

L ( x , α , β ) = f ( x ) + ∑ i = 1 m α i h i ( x ) + ∑ j = 1 n β i g i ( x ) L(x,\alpha,\beta) =f(x) + \sum_{i=1}^m \alpha_i h_i(x) + \sum_{j=1}^n\beta_ig_i(x) L(x,α,β)=f(x)+i=1mαihi(x)+j=1nβigi(x)
因为 h i ( x ) ≤ 0 , α ≥ 0 , g i ( x ) = 0 h_i(x)\le0,\alpha\ge0,g_i(x)=0 hi(x)0,α0,gi(x)=0,所以如果把 L ( x , α , β ) L(x,\alpha,\beta) L(x,α,β) 看作是 α i , β i \alpha_i,\beta_i αi,βi的函数,有:
max ⁡ α , β : α i ≥ 0 L ( x , α , β ) = { f ( x ) , if  x  满足原始问题约束 + ∞ , if 其他 \max_ {\alpha,\beta:\alpha_i\ge0} L(x,\alpha,\beta) = \begin{cases} f(x), &amp; \text{if $x$ 满足原始问题约束} \\ +\infty, &amp; \text{if 其他} \end{cases} α,β:αi0maxL(x,α,β)={f(x),+,if x 满足原始问题约束if 其他

  • 原问题(primal problem): p ∗ = min ⁡ x max ⁡ α , β L ( x , α , β ) p^*=\min_x\max_{\alpha,\beta}L(x,\alpha,\beta) p=xminα,βmaxL(x,α,β)
  • 对偶问题(dual problem): d ∗ = max ⁡ α , β min ⁡ x L ( x , α , β ) d^*=\max_{\alpha,\beta}\min_xL(x,\alpha,\beta) d=α,βmaxxminL(x,α,β)
  • 通常, p ∗ ≥ d ∗ p^*\ge d^* pd 即对偶问题的最优解是原始问题最优解的下限(弱对偶性)
  • 但如果是满足KKT条件的方程组的解 ∇ x , α , β L ( x , α , β ) = 0 β j g j ( x ) = 0 ,   j = 1 , 2 , . . . , n g j ( x ) ≤ 0 ,   j = 1 , 2 , . . . , n β j ≥ 0 ,   j = 1 , 2 , . . . , n \begin{aligned} \nabla_{x,\alpha,\beta} L(x,\alpha,\beta) &amp;= 0 \\ \beta_jg_j(x) &amp;= 0 , \ j=1,2,...,n\\ g_j(x) &amp;\le 0 , \ j=1,2,...,n \\ \beta_j &amp;\ge 0 , \ j=1,2,...,n \\ \end{aligned} x,α,βL(x,α,β)βjgj(x)gj(x)βj=0=0, j=1,2,...,n0, j=1,2,...,n0, j=1,2,...,n
    此时, p ∗ = d ∗ p^*=d^* p=d强对偶性,原始问题和对偶问题的最优解严格相等
    当f(x)和g(x)为凸函数,h(x)为仿射函数时,p*= d*
  • 因为 β g ( x ) = 0 \beta g(x) = 0 βg(x)=0,即 L ( x , α , β ) = f ( x ) L(x,\alpha,\beta) =f(x) L(x,α,β)=f(x),所以具有强对偶性

支持向量机的对偶

  • 支持向量机最大间隔化下的损失函数:
    min ⁡ 1 2 ∣ ∣ w ∣ ∣ 2 s . t .   y i ( w T x i + b ) ≥ 1 , i = 1 , 2 , . . . , m \min \frac{1}{2}||w||^2\\ s.t.\ y_i(w^Tx_i+b)\ge1,i=1,2,...,m min21w2s.t. yi(wTxi+b)1,i=1,2,...,m
    约束条件可以写成:
    g i ( w ) = 1 − y i ( w T x i + b ) ≤ 0 g_i(\mathbf w)=1-y_i(\mathbf w^T\mathbf x_i+b)\le0 gi(w)=1yi(wTxi+b)0
  • 构造拉格朗日函数: L ( w , b , λ ) = 1 2 ∣ ∣ w ∣ ∣ 2 + ∑ i m λ i ( 1 − y i ( w T x i + b ) ) L(\mathbf w,b,\mathbf \lambda) = \frac{1}{2}||w||^2+\sum_i^m \lambda_i(1-y_i(\mathbf w^T\mathbf x_i+b)) L(w,b,λ)=21w2+imλi(1yi(wTxi+b))
  • 对偶问题的形式,先求 L ( w , b , λ ) L(\mathbf w,b,\mathbf \lambda) L(w,b,λ)对w,b的极小,再求对 λ \lambda λ的极大
    • 1 求 min ⁡ w , b L ( w , b , λ ) \min_{w,b} L(\mathbf w,b,\mathbf \lambda) minw,bL(w,b,λ),将拉格朗日函数分别对 w,b 求偏导并令其等于0:
      ∇ w L ( w , b , λ ) = w − ∑ i m λ i y i x i = 0 , w = ∑ i m λ i y i x i ∇ b L ( w , b , λ ) = ∑ i m λ i y i = 0 \nabla_wL(\mathbf w,b,\mathbf \lambda)=\mathbf w-\sum_i^m \lambda_iy_i\mathbf x_i=0,\\ \mathbf w=\sum_i^m \lambda_iy_i\mathbf x_i\\ \nabla_bL(\mathbf w,b,\mathbf \lambda)=\sum_i^m \lambda_iy_i=0 wL(w,b,λ)=wimλiyixi=0,w=imλiyixibL(w,b,λ)=imλiyi=0
    • 2 将以上求得代入拉格朗日函数:
      L ( w , b , λ ) = 1 2 ∣ ∣ w ∣ ∣ 2 + ∑ i m λ i ( 1 − y i ( w T x i + b ) ) = 1 2 ∑ i m ∑ j m λ i λ j y i y j ( x i ⋅ x j ) + ∑ i m λ i − ∑ i m ∑ j m λ i λ j y i y j ( x i ⋅ x j ) = − 1 2 ∑ i m ∑ j m λ i λ j y i y j ( x i ⋅ x j ) + ∑ i m λ i L(\mathbf w,b,\mathbf \lambda) = \frac{1}{2}||w||^2+\sum_i^m \lambda_i(1-y_i(\mathbf w^T\mathbf x_i+b)) \\ = \frac{1}{2}\sum_i^m \sum_j^m \lambda_i\lambda_jy_iy_j(\mathbf x_i\cdot\mathbf x_j)+\sum_i^m \lambda_i-\sum_i^m \sum_j^m \lambda_i\lambda_jy_iy_j(\mathbf x_i\cdot\mathbf x_j)\\ =- \frac{1}{2}\sum_i^m \sum_j^m \lambda_i\lambda_jy_iy_j(\mathbf x_i\cdot\mathbf x_j)+\sum_i^m \lambda_i L(w,b,λ)=21w2+imλi(1yi(wTxi+b))=21imjmλiλjyiyj(xixj)+imλiimjmλiλjyiyj(xixj)=21imjmλiλjyiyj(xixj)+imλi
    • 3 以上得出的式子就是 L ( w , b , λ ) L(\mathbf w,b,\mathbf \lambda) L(w,b,λ)对w,b的极小: m i n w , b L ( w , b , λ ) min_{\mathbf w,b} L(\mathbf w,b,\mathbf \lambda) minw,bL(w,b,λ);下面需要继续求这个式子对 λ \lambda λ的极大:
      max ⁡ λ W ( λ ) = max ⁡ λ − 1 2 ∑ i m ∑ j m λ i λ j y i y j ( x i ⋅ x j ) + ∑ i m λ i \max_\lambda W(\lambda)=\max_\lambda - \frac{1}{2}\sum_i^m \sum_j^m \lambda_i\lambda_jy_iy_j(\mathbf x_i\cdot\mathbf x_j)+\sum_i^m \lambda_i λmaxW(λ)=λmax21imjmλiλjyiyj(xixj)+imλi
      或可以将求极大转换为求极小:
      min ⁡ λ W ( λ ) = min ⁡ λ 1 2 ∑ i m ∑ j m λ i λ j y i y j ( x i ⋅ x j ) − ∑ i m λ i \min_\lambda W(\lambda)=\min_\lambda \frac{1}{2}\sum_i^m \sum_j^m \lambda_i\lambda_jy_iy_j(\mathbf x_i\cdot\mathbf x_j)-\sum_i^m \lambda_i λminW(λ)=λmin21imjmλiλjyiyj(xixj)imλi
      s . t .    ∑ i m λ i y i = 0 λ ≥ 0 , i = 1 , 2 , . . . , m s.t.\ \ \sum_i^m \lambda_iy_i=0\\ \lambda\ge0,i=1,2,...,m s.t.  imλiyi=0λ0,i=1,2,...,m
      并且满足KKT条件 1 − y i f ( x i ) ≤ 0 λ ( 1 − y i f ( x i ) ) = 0 λ ≥ 0 1-y_if(\mathbf x_i)\le0\\ \lambda(1-y_if(\mathbf x_i))=0\\ \lambda\ge0 1yif(xi)0λ(1yif(xi))=0λ0

线性可分支持向量机的学习算法 r4p106

输入:线性可分训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) , } T=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m),\} T={(x1,y1),(x2,y2),...,(xm,ym),},其中 x u ∈ R n , y ∈ { − 1 , 1 } , i = 1 , 2 , . . . , m x_u \in\R^n,y\in\{-1,1\},i=1,2,...,m xuRn,y{1,1},i=1,2,...,m
输出:分离超平面和分类决策函数
1) 构造并求解约束最优化问题
min ⁡ λ W ( λ ) = min ⁡ λ 1 2 ∑ i m ∑ j m λ i λ j y i y j ( x i ⋅ x j ) − ∑ i m λ i s . t .    ∑ i m λ i y i = 0 λ ≥ 0 , i = 1 , 2 , . . . , m \min_\lambda W(\lambda)=\min_\lambda \frac{1}{2}\sum_i^m \sum_j^m \lambda_i\lambda_jy_iy_j(\mathbf x_i\cdot\mathbf x_j)-\sum_i^m \lambda_i\\ s.t.\ \ \sum_i^m \lambda_iy_i=0\\ \lambda\ge0,i=1,2,...,m λminW(λ)=λmin21imjmλiλjyiyj(xixj)imλis.t.  imλiyi=0λ0,i=1,2,...,m
求得最优解 λ ∗ = ( λ 1 ∗ , λ 2 ∗ ) , . . . , λ m ∗ ) \lambda^*=(\lambda_1^*,\lambda_2^*),...,\lambda_m^*) λ=(λ1,λ2),...,λm)

这是一个二次规划问题,可通过二次规划算法求解;然而该问题的规模正比于训练样本数,在实际任务中会有很大的开销
SMO(Sequential Minimal Optimization)算法是解决这个问题的一个高效的算法

  1. 计算 w ∗ = ∑ i m λ i ∗ y i x i \mathbf w^*=\sum_i^m \lambda_i^*y_i\mathbf x_i w=imλiyixi
    选取 λ ∗ \lambda^* λ的任一正分量 λ j ∗ &gt; 0 \lambda^*_j&gt;0 λj>0,计算 b ∗ = y j − ∑ i m λ i y i ( x i ⋅ x j ) b^*=y_j-\sum_i^m\lambda_iy_i(x_i\cdot x_j) b=yjimλiyi(xixj)

b ∗ b^* b的求解过程:
在最优解 λ ∗ \lambda^* λ中至少有一个 λ j ∗ &gt; 0 \lambda_j^*&gt;0 λj>0,根据KKT条件 λ ( 1 − y i f ( x i ) ) = 0 \lambda(1-y_if(\mathbf x_i))=0 λ(1yif(xi))=0 有:
λ j ( 1 − y j ( w ⋅ x j + b ) ) = 0 1 − y j ( ∑ i m λ i y i ( x i ⋅ x j ) + b ) = 0 \lambda_j(1-y_j(\mathbf w\cdot\mathbf x_j+b))=0\\ 1-y_j(\sum_i^m\lambda_i y_i(\mathbf x_i\cdot\mathbf x_j)+b)=0 λj(1yj(wxj+b))=01yj(imλiyi(xixj)+b)=0
因为总有 y j 2 = 1 y_j^2=1 yj2=1
所以: b = y j − ∑ i m λ i y i ( x i ⋅ x j ) b=y_j-\sum_i^m\lambda_i y_i(\mathbf x_i\cdot\mathbf x_j) b=yjimλiyi(xixj)

  1. 求得分离超平面: w ∗ ⋅ x + b ∗ = 0 \mathbf w^*\cdot \mathbf x +b^*=0 wx+b=0
    分类决策函数: f ( x ) = s i g n ( w ∗ ⋅ x + b ∗ ) f(x)=sign(\mathbf w^*\cdot \mathbf x +b^*) f(x)=sign(wx+b)
  • 示例见r4p107
  • 在最大化决策间隔时,必然有一些点落在间隔的边界上,这些点就是支持向量。有KKT条件 λ ∗ ( y i ( w ∗ ⋅ x i + b ) − 1 ) = 0 \lambda^*(y_i(\mathbf w^*\cdot \mathbf x_i+b)-1)=0 λ(yi(wxi+b)1)=0
    对于 λ ∗ &gt; 0 \lambda^*&gt;0 λ>0的实例 x i \mathbf x_i xi,有 y i ( w ∗ ⋅ x i + b ) − 1 = 0 y_i(\mathbf w^*\cdot \mathbf x_i+b)-1=0 yi(wxi+b)1=0 w ∗ ⋅ x i + b = ± 1 \mathbf w^*\cdot \mathbf x_i+b=\pm1 wxi+b=±1
    可见 支持向量是一定落在间隔边界上
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. ARIMA 2. SARIMA 3. VAR 4. Auto-ARIMA 5. Auto-SARIMA 6. LSTM 7. GRU 8. RNN 9. CNN 10. MLP 11. DNN 12. MLP-LSTM 13. MLP-GRU 14. MLP-RNN 15. MLP-CNN 16. LSTM-ARIMA 17. LSTM-MLP 18. LSTM-CNN 19. GRU-ARIMA 20. GRU-MLP 21. GRU-CNN 22. RNN-ARIMA 23. RNN-MLP 24. RNN-CNN 25. CNN-ARIMA 26. CNN-MLP 27. CNN-LSTM 28. CNN-GRU 29. ARIMA-SVM 30. SARIMA-SVM 31. VAR-SVM 32. Auto-ARIMA-SVM 33. Auto-SARIMA-SVM 34. LSTM-SVM 35. GRU-SVM 36. RNN-SVM 37. CNN-SVM 38. MLP-SVM 39. LSTM-ARIMA-SVM 40. LSTM-MLP-SVM 41. LSTM-CNN-SVM 42. GRU-ARIMA-SVM 43. GRU-MLP-SVM 44. GRU-CNN-SVM 45. RNN-ARIMA-SVM 46. RNN-MLP-SVM 47. RNN-CNN-SVM 48. CNN-ARIMA-SVM 49. CNN-MLP-SVM 50. CNN-LSTM-SVM 51. CNN-GRU-SVM 52. ARIMA-RF 53. SARIMA-RF 54. VAR-RF 55. Auto-ARIMA-RF 56. Auto-SARIMA-RF 57. LSTM-RF 58. GRU-RF 59. RNN-RF 60. CNN-RF 61. MLP-RF 62. LSTM-ARIMA-RF 63. LSTM-MLP-RF 64. LSTM-CNN-RF 65. GRU-ARIMA-RF 66. GRU-MLP-RF 67. GRU-CNN-RF 68. RNN-ARIMA-RF 69. RNN-MLP-RF 70. RNN-CNN-RF 71. CNN-ARIMA-RF 72. CNN-MLP-RF 73. CNN-LSTM-RF 74. CNN-GRU-RF 75. ARIMA-XGBoost 76. SARIMA-XGBoost 77. VAR-XGBoost 78. Auto-ARIMA-XGBoost 79. Auto-SARIMA-XGBoost 80. LSTM-XGBoost 81. GRU-XGBoost 82. RNN-XGBoost 83. CNN-XGBoost 84. MLP-XGBoost 85. LSTM-ARIMA-XGBoost 86. LSTM-MLP-XGBoost 87. LSTM-CNN-XGBoost 88. GRU-ARIMA-XGBoost 89. GRU-MLP-XGBoost 90. GRU-CNN-XGBoost 91. RNN-ARIMA-XGBoost 92. RNN-MLP-XGBoost 93. RNN-CNN-XGBoost 94. CNN-ARIMA-XGBoost 95. CNN-MLP-XGBoost 96. CNN-LSTM-XGBoost 97. CNN-GRU-XGBoost 98. ARIMA-ANN 99. SARIMA-ANN 100. VAR-ANN 上面这些缩写模型的全称及相关用途功能详细解释
07-15

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值