最优化方法(学习笔记)-第八章SVM&范数&SVD

支持向量机SVM

线性判别

在这里插入图片描述

最大分类间隔器

利用线性判别的性质,可以通过最大间隔来做分类【直线是超平面,两侧直线上的点是支持向量】
在这里插入图片描述

两平面间的距离计算公式
在这里插入图片描述
于是距离宽度是 d i s t = 2 a ∣ ∣ w ∣ ∣ 2 ∝ 1 ∣ ∣ w ∣ ∣ 2 dist=\frac{2a}{||w||_2}\propto \frac{1}{||w||_2} dist=w22aw21
所以不妨令 a = 1 a=1 a=1
在这里插入图片描述

  • 目标函数: max ⁡ 1 ∣ ∣ w ∣ ∣ 2    ⟺    min ⁡ ∣ ∣ w ∣ ∣ 2 2 2 \max{\frac{1}{||w||_2}}\iff\min{\frac{||w||_2^2}{2}} maxw21min2w22

  • 约束条件: f ( x ) = 1 − y i ( w T x i + b ) f(x)=1-y_i(w^Tx_i+b) f(x)=1yi(wTxi+b),标签y=1/-1

  • 目的是寻找超平面的参数 w ^ 和 b ^ \hat{w}和\hat{b} w^b^
    在这里插入图片描述
    对偶函数: g ( α ) = inf ⁡ w , b L ( w , b , α ) g(\alpha)=\inf_{w,b}{L(w,b,\alpha)} g(α)=infw,bL(w,b,α)

  • KKT的四个条件
    在这里插入图片描述

  • 求导计算
    在这里插入图片描述
    得到 g ( α ) = − 1 / 2 ∑ i ∑ j α i α j y i y j x i x j + ∑ i = 1 n α i g(\alpha)=-1/2\sum_i\sum_j\alpha_i\alpha_jy_iy_jx_ix_j+\sum_{i=1}^n\alpha_i g(α)=1/2ijαiαjyiyjxixj+i=1nαi

  • H i j = y i y j x i ∗ x j ∈ S + + n H_{ij}=y_iy_jx_i*x_j\isin S_{++}^n Hij=yiyjxixjS++n对称半正定矩阵
    于是 g ( α ) = − 1 / 2 α T H α + 1 T α g(\alpha)=-1/2\alpha^TH\alpha+1^T\alpha g(α)=1/2αTHα+1Tα

  • 转变求对偶问题
    max ⁡ − 1 / 2 α T H α + 1 T α \max{-1/2\alpha^TH\alpha+1^T\alpha} max1/2αTHα+1Tα
    s . t .   α ≥ 0 , ∑ α i y i = 0 s.t.\space \alpha\geq0,\sum{\alpha_iy_i}=0 s.t. α0,αiyi=0

  • 用QP-solver得到 α , w ^ = ∑ i ∈ S α i y i x i , α i ≠ 0 \alpha,\hat{w}=\sum_{i\isin S}{\alpha_iy_ix_i},\alpha_i\neq0 αw^=iSαiyixi,αi=0

  • b ^ = 1 / N S ∑ i ∈ S ( y i − ∑ j α j y j x j ∗ x i ) \hat{b}=1/N_S \sum_{i\isin S}{(y_i-\sum_j{\alpha_jy_jx_j*x_i})} b^=1/NSiS(yijαjyjxjxi)

  • y i = ∑ j ∈ S α j y j x j ∗ x i + b ^ y_i=\sum_{j\isin S}{\alpha_jy_jx_j*x_i}+\hat{b} yi=jSαjyjxjxi+b^

支持向量分类器Support vector classifier

Support vector classifier就是引入了软间隔,实现有容错率的线性分割超平面
在这里插入图片描述

优化问题( γ \gamma γ
在这里插入图片描述

支持向量机SVM-核函数

SVM就是引入的核函数,针对线性不可分的判别问题,指基于(低维到高维)映射函数(未知)的内积函数,通常这个映射函数很难找,而且求w的公式指出,仅需寻找一个合适的内积函数就行。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

范数Norm

数值的范数

范数的判定条件 f : R n → R f:R^n\rightarrow R f:RnR

  • f ( x ) ≥ 0 f(x)\geq0 f(x)0
  • f ( x ) = 0    ⟺    x = 0 f(x)=0\iff x=0 f(x)=0x=0
  • f ( t x ) = ∣ t ∣ f ( x ) f(tx)=|t|f(x) f(tx)=tf(x)
  • f ( x + y ) ≤ f ( x ) + f ( y ) f(x+y)\leq f(x)+f(y) f(x+y)f(x)+f(y)

p范数: ∣ ∣ X ∣ ∣ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p ||X||_p=(\sum_{i=1}^n{|x_i|^p)^{\frac{1}{p}}} Xp=(i=1nxip)p1

  • p → ∞ , ∣ ∣ x ∣ ∣ ∞ = lim ⁡ p → ∞ ( ∑ ∣ x i ∣ p ) 1 p p\rightarrow\infty,||x||_{\infty}=\lim_{p\rightarrow \infty}(\sum{|x_i|^p)^{\frac{1}{p}}} p,x=limp(xip)p1
    u = max ⁡ i ∣ x i ∣ , k = arg ⁡ max ⁡ i ∣ x i ∣ u=\max_i{|x_i|},k=\arg\max_i{|x_i|} u=maxixik=argmaxixi
    ∣ ∣ x ∣ ∣ ∞ = lim ⁡ p → ∞ ( u p ( 1 + ∑ i ≠ k ∣ x i u ∣ p ) ) 1 p ||x||_{\infty}=\lim_{p\rightarrow \infty}(u^p(1+\sum_{i\neq k}{|\frac{x_i}{u}|^p))^{\frac{1}{p}}} x=limp(up(1+i=kuxip))p1
    = u lim ⁡ p → ∞ ( 1 + ∑ i ≠ k α i p ) 1 p = u \quad\quad=u\lim_{p\rightarrow \infty}(1+\sum_{i\neq k}{\alpha_i^p)^{\frac{1}{p}}}=u =ulimp(1+i=kαip)p1=u
    所以: ∣ ∣ x ∣ ∣ ∞ = max ⁡ i ∣ x i ∣ ||x||_{\infty}=\max_i{|x_i|} x=maxixi

矩阵的范数

  • 范数定义:
    X ∈ R m × n , ∣ ∣ X ∣ ∣ a , b = sup ⁡ { ∣ ∣ x u ∣ ∣ a ∣   ∣ ∣ u ∣ ∣ b ≤ 1 } X\isin R^{m\times n},||X||_{a,b}=\sup\{||xu||_a|\space||u||_b\leq1\} XRm×nXa,b=sup{xua ub1}
  • 当a=b=p, ∣ ∣ X ∣ ∣ p = ∣ ∣ X ∣ ∣ p , p ||X||_p=||X||_{p,p} Xp=Xp,p

以下设p=2, ∣ ∣ x u ∣ ∣ 2 2 = u T x T x u ||xu||_2^2=u^Tx^Txu xu22=uTxTxu

A = x T x , G = u T A u , λ m a x = sup ⁡ u T A u A=x^Tx,G=u^TAu,\lambda_{max}=\sup{u^TAu} A=xTxG=uTAu,λmax=supuTAu

A就是特征值组成的对角矩阵,通过对A做正交分解

设 A = ∑ λ i v i v i T , u = ∑ c i v i , ∑ c i 2 ≤ 1 设A=\sum{\lambda_iv_iv_i^T},u=\sum{c_iv_i},\sum{c_i^2}\leq1 A=λiviviT,u=civi,ci21
i ≠ j i\neq j i=j时, v i v j = 0 v_iv_j=0 vivj=0,v是标准正交基】

得到 G = ∑ i , j , k c i v i T λ j v j v j T c k v k = ∑ c i 2 λ i ≤ λ m a x G=\sum_{i,j,k}{c_iv_i^T\lambda_jv_jv_j^Tc_kv_k}=\sum{c_i^2\lambda_i}\leq \lambda_{max} G=i,j,kciviTλjvjvjTckvk=ci2λiλmax

  • 所以 ∣ ∣ X ∣ ∣ 2 = σ m a x ( X ) = ( λ m a x ( x T x ) ) 1 2 ||X||_2=\sigma_{max}(X)=(\lambda_{max}(x^Tx))^{\frac12} X2=σmax(X)=(λmax(xTx))21
  • 同理求得 ∣ ∣ x u ∣ ∣ ∞ = max ⁡ i ∑ j ∣ x i j ∣ ||xu||_\infty=\max_i{\sum_j{|x_{ij}}|} xu=maxijxij
    max-row-sum norm
  • 同理求得 ∣ ∣ x u ∣ ∣ 1 = max ⁡ j ∑ i ∣ x i j ∣ ||xu||_1=\max_j{\sum_i{|x_{ij}}|} xu1=maxjixij
    max-col-sum norm

对偶范数

  • 对偶范数定义:
    z ∈ R n , ∣ ∣ z ∣ ∣ ∗ = sup ⁡ { z T x ∣   ∣ ∣ x ∣ ∣ ≤ 1 } z\isin R^n,||z||_*=\sup\{z^Tx|\space||x||\leq1\} zRn,z=sup{zTx x1}

∣ ∣ z ∣ ∣ ∞ ∗ = sup ⁡ { z T x ∣   ∣ ∣ x ∣ ∣ ∞ ≤ 1 } ||z||_{\infty*}=\sup\{z^Tx|\space||x||_\infty\leq1\} z=sup{zTx x1}

∣ ∣ x ∣ ∣ ∞ ≤ 1 ||x||_\infty\leq1 x1,那么x只能等于1或者-1

z T x = ∑ z i x i ≤ ∑ ∣ z i ∣ = x i = s i g n ( z i ) ∣ ∣ z ∣ ∣ 1 z^Tx=\sum{z_ix_i}\leq\sum|z_i|\xlongequal{x_i=sign{(z_i)}}||z||_1 zTx=zixizixi=sign(zi) z1

  • ∣ ∣ z ∣ ∣ ∞ ∗ = ∣ ∣ z ∣ ∣ 1 , 同 理 ∣ ∣ z ∣ ∣ 1 ∗ = ∣ ∣ z ∣ ∣ ∞ ||z||_{\infty*}=||z||_1,同理||z||_{1*}=||z||_{\infty} z=z1z1=z

∣ ∣ z ∣ ∣ 2 ∗ = sup ⁡ { z T x ∣   ∣ ∣ x ∣ ∣ 2 ≤ 1 } ||z||_{2*}=\sup\{z^Tx|\space||x||_2\leq1\} z2=sup{zTx x21}

z T x = ∣ ∣ z ∣ ∣ 2 ∣ ∣ x ∣ ∣ 2 cos ⁡ θ ≤ ∣ ∣ z ∣ ∣ 2 ∣ ∣ x ∣ ∣ 2 ≤ ∣ ∣ z ∣ ∣ 2 z^Tx=||z||_2||x||_2\cos{\theta}\leq||z||_2||x||_2\leq||z||_2 zTx=z2x2cosθz2x2z2

  • ∣ ∣ z ∣ ∣ 2 ∗ = ∣ ∣ z ∣ ∣ 2 ||z||_{2*}=||z||_2 z2=z2
  • 另外: ∣ ∣ z ∣ ∣ p ∗ = ∣ ∣ z ∣ ∣ q ( 1 p + 1 q = 1 , p , q ≥ 1 ) ||z||_{p*}=||z||_q(\frac1p+\frac1q=1,p,q\geq1) zp=zq(p1+q1=1,p,q1)

奇异值分解SVD

  • 若A是对称矩阵 A ∈ R n × n A\isin R^{n\times n} ARn×n
    Q T = Q − 1 , A = Q Λ Q T = ∑ λ i q i q i T Q^T=Q^{-1},A=Q\Lambda Q^{T}=\sum{\lambda_iq_iq_i^T} QT=Q1A=QΛQT=λiqiqiT

    • Q Q Q每一列是特征向量

    • Λ \Lambda Λ每一个对角元素是特征值

    • 做特征分解
      A q i = λ i q i Aq_i=\lambda_iq_i Aqi=λiqi
      d e t ( A ) = Π i = 1 n λ i det(A)=\Pi_{i=1}^n{\lambda_i} det(A)=Πi=1nλi
      t r ( A ) = ∑ i = 1 n λ i tr(A)=\sum_{i=1}^n{\lambda_i} tr(A)=i=1nλi
      ∣ ∣ A ∣ ∣ 2 = max ⁡ i λ i ||A||_2=\max_{i}{\lambda_i} A2=maxiλi

    • 瑞利熵
      在这里插入图片描述

    • PCA(主成分分析)就是瑞利熵理论的一个应用
      LDA(线性判别分析)是泛化瑞利熵的一个应用​

  • A不是对称方针, A ∈ R m × n A\isin R^{m\times n} ARm×n

    • A = U ∑ V T , r a n k ( A ) = r A=U\sum V^{T},rank(A)=r A=UVT,rank(A)=r
    • U T U = I , V T V = I , ∑ = d i a g ( σ 1 , . . . , σ r ) U^TU=I,V^TV=I,\sum=diag(\sigma_1,...,\sigma_r) UTU=I,VTV=I,=diag(σ1,...,σr)
    • A = ∑ i r σ i u i v i T A=\sum_i^r{\sigma_iu_iv_i^T} A=irσiuiviT
      在这里插入图片描述
    • 分解 A T A = v ∑ u T u ∑ v T = v ∑ 2 v T A^TA=v\sum u^Tu\sum v^T=v\sum^2v^T ATA=vuTuvT=v2vT
      • v是 A T A A^TA ATA的特征向量
      • σ i 2 是 A T A \sigma_i^2是A^TA σi2ATA的特征值
    • 分解 A A T = u ∑ v T v ∑ u T = u ∑ 2 u T AA^T=u\sum v^Tv\sum u^T=u\sum^2u^T AAT=uvTvuT=u2uT
      • u是 A A T AA^T AAT的特征向量
      • σ i 2 是 A A T \sigma_i^2是AA^T σi2AAT的特征值
    • pesudo-inverse(伪逆)
      A + = V ∑ − 1 U T = V ∑ − 2 V T V ∑ U T A^+=V\sum^{-1}U^T=V\sum^{-2}V^TV\sum U^T A+=V1UT=V2VTVUT
      = ( A T A ) − 1 A T \quad=(A^TA)^{-1}A^T =(ATA)1AT
      若Ax=b,那么 x = ( A T A ) − 1 A T b = A + b x=(A^TA)^{-1}A^Tb=A^+b x=(ATA)1ATb=A+b

总结

  • 支持向量机
    在这里插入图片描述

    • 优化问题
      min ⁡ 1 2 ∣ ∣ w ∣ ∣ 2 2 \min \frac12||w||_2^2 min21w22
      s . t . 1 − y i ( w T x i + b ) ≤ 0 , ∀ i s.t.\quad 1-y_i(w^Tx_i+b)\leq0,\forall i s.t.1yi(wTxi+b)0,i
    • 对偶问题&KKT条件
      互补松弛条件----支撑性质---->支持向量
    • 非线性分类问题
      核函数K,映射函数 x = ϕ ( z ) x=\phi(z) x=ϕ(z)
  • 范数

    • 内积 < x , y > = x T y <x,y>=x^Ty <x,y>=xTy
      内积核夹角的关系: cos ⁡ θ = x T y ∣ ∣ x ∣ ∣ ∣ ∣ y ∣ ∣ \cos{\theta}=\frac{x^Ty}{||x||||y||} cosθ=xyxTy
    • P范数 ∣ ∣ X ∣ ∣ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p ||X||_p=(\sum_{i=1}^n{|x_i|^p)^{\frac{1}{p}}} Xp=(i=1nxip)p1
      p=0:非零元素个数
      p=1: ∣ ∣ x ∣ ∣ 1 = ∑ i ∣ x i ∣ ||x||_1=\sum_i{|x_i|} x1=ixi
      p=2: ∣ ∣ x ∣ ∣ 2 = ∑ i x i 2 ||x||_{2}=\sqrt{\sum_i{x_i^2}} x2=ixi2
      p= ∞ \infty ∣ ∣ x ∣ ∣ ∞ = max ⁡ i ∣ x i ∣ ||x||_{\infty}=\max_i{|x_i|} x=maxixi
    • 矩阵范数 ∣ ∣ X ∣ ∣ a , b = sup ⁡ { ∣ ∣ x u ∣ ∣ a ∣   ∣ ∣ u ∣ ∣ b ≤ 1 } ||X||_{a,b}=\sup\{||xu||_a|\space||u||_b\leq1\} Xa,b=sup{xua ub1}
      p=2: ∣ ∣ X ∣ ∣ 2 = ( λ m a x ( x T x ) ) 1 2 ||X||_2=(\lambda_{max}(x^Tx))^{\frac12} X2=(λmax(xTx))21
      p=1: ∣ ∣ x u ∣ ∣ 1 = max ⁡ j ∑ i ∣ x i j ∣ ||xu||_1=\max_j{\sum_i{|x_{ij}}|} xu1=maxjixij
      p= ∞ \infty ∣ ∣ x u ∣ ∣ ∞ = max ⁡ i ∑ j ∣ x i j ∣ ||xu||_\infty=\max_i{\sum_j{|x_{ij}}|} xu=maxijxij
    • 对偶范数 ∣ ∣ z ∣ ∣ ∗ = sup ⁡ { z T x ∣   ∣ ∣ x ∣ ∣ ≤ 1 } ||z||_*=\sup\{z^Tx|\space||x||\leq1\} z=sup{zTx x1}
      ∣ ∣ z ∣ ∣ ∞ ∗ = ∣ ∣ z ∣ ∣ 1 ||z||_{\infty*}=||z||_1 z=z1
      ∣ ∣ z ∣ ∣ 1 ∗ = ∣ ∣ z ∣ ∣ ∞ ||z||_{1*}=||z||_{\infty} z1=z
      ∣ ∣ z ∣ ∣ 2 ∗ = ∣ ∣ z ∣ ∣ 2 ||z||_{2*}=||z||_2 z2=z2
      ∣ ∣ z ∣ ∣ p ∗ = ∣ ∣ z ∣ ∣ q ( 1 p + 1 q = 1 , p , q ≥ 1 ) ||z||_{p*}=||z||_q(\frac1p+\frac1q=1,p,q\geq1) zp=zq(p1+q1=1,p,q1)
  • 奇异值分解
    在这里插入图片描述

    • 对称矩阵(特征分解) A = Q Λ Q T A=Q\Lambda Q^{T} A=QΛQT
      Rayleigh quotient: R ( A , x ) = x T A x x T x , ∣ λ m i n , λ m a x ∣ R(A,x)=\frac{x^TAx}{x^Tx},|\lambda_{min},\lambda_{max}| R(A,x)=xTxxTAx,λmin,λmax
    • 非对称矩阵(伪逆) A = U ∑ V T , r a n k ( A ) = r A=U\sum V^{T},rank(A)=r A=UVT,rank(A)=r
      pseudo-inverse: A + = ( A T A ) − 1 A T A^{+}=(A^TA)^{-1}A^T A+=(ATA)1AT
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值