Problem Set 3

1Lagrange Duality Formulate the Lagrange dual problem of the following
linear programming prob-lem min cT rs.t.Ax 二b where a ∈R is variable,c
∈ R",A ∈Rk×n, b ∈ Rk.

在这里插入图片描述

解:设拉格朗日函数为 L ( x , λ ) = c T x + λ T ( A x − b ) \mathcal{L}(x,\lambda)=c^Tx+\lambda^T(Ax-b) L(x,λ)=cTx+λT(Axb),

对应的对偶函数为 G ( λ ) = i n f λ   L ( x , λ ) \mathcal{G}(\lambda)=inf_{\lambda}\ \mathcal{L}(x,\lambda) G(λ)=infλ L(x,λ)

而LP问题与对偶问题强对偶,KTT 条件成立,满足 stationarity

∇ x c T x ∗ + λ ∗ T ( A x − b ) = 0 \nabla_{x}c^Tx^*+{\lambda^*}^T(Ax-b)=0 xcTx+λT(Axb)=0

⟹ \Longrightarrow c T + λ ∗ T A = 0 c^T+{\lambda^*}^TA=0 cT+λTA=0

以及 A x ∗ − b = 0 Ax^*-b=0 Axb=0,因此该点处拉格朗日函数可以表达为

L ( x ∗ , λ ∗ ) = ( − λ T A ) ( A − 1 b ) + λ T ( A x ∗ − b ) \mathcal{L}(x^*,\lambda^*)=(-\lambda^TA)(A^{-1}b)+\lambda^T(Ax^*-b) L(x,λ)=(λTA)(A1b)+λT(Axb)

L ( x ∗ , λ ∗ ) = − λ T b \mathcal{L}(x^*,\lambda^*)=-\lambda^T b L(x,λ)=λTb

根据 Dual feasibility 得 λ i ≥ 0 \lambda_i\geq 0 λi0

LP问题的对偶问题标准形式为
m a x λ   − λ T b s . t . λ ≥ 0 , c T + λ T A = 0 max_{\lambda}\ -\lambda^T b \\ s.t. \lambda\geq 0,c^T+{\lambda}^TA=0 maxλ λTbs.t.λ0,cT+λTA=0
这里补充一种做法:
将拉格朗日对偶函数变换为 G ( λ ) = i n f L ( x , λ ) = i n f ( c T + λ T A ) x − λ T b \mathcal{G}(\lambda)=inf\mathcal{L}(x,\lambda)=inf(c^T+\lambda^TA)x-\lambda^Tb G(λ)=infL(x,λ)=inf(cT+λTA)xλTb
c T + λ T A = 0 c^T+\lambda^TA=0 cT+λTA=0 时, G ( λ ) = − λ T b \mathcal{G}(\lambda)=-\lambda^Tb G(λ)=λTb
否则, G ( λ ) = ∞ \mathcal{G}(\lambda)=\infty G(λ)=,不存在极值。

sVM
2.1Convex Functions Prove f(w) = w" . (where w ∈ R") is a convex function.2.2Soft-Margin for Separable Data Consider training a
soft-margin SVM with C set to some positive constant.Suppose the
training data is linearly separable. Since increasing the 6; can
onlyincrease the objective of the primal problem (which we are trying
to minimize),at the optimal solution to the primal problem,all the
training examples willhave functional margin at least 1 and all the i
will be equal to zero. True orfalse? Explain! Given a linearly
separable dataset, is it necessarily better to usea a hard margin SVM
over a soft-margin SVM?
2.3In-bound Support Vectors in Soft-Margin sVMs Examples ar() with a > 0 are called support vectors (SVs). For soft-marginsVM we distinguish
between in-bound SVs,for which 0 <Qi<C, and boundsVs for which a; = C.
Show that in-bound SVs lie exactly on the margin.Argue that bound SVs
can lie both on or in the margin,and that they will“usually” lie in
the margin. Hint: use the KKT conditions.

在这里插入图片描述

2.1证: ω T ω \omega^T\omega ωTω是凸函数

   ⟺    \iff ∣ ∣ λ x + ( 1 − λ ) y ∣ ∣ 2 ≤ λ ∣ ∣ x ∣ ∣ 2 + ( 1 − λ ) ∣ ∣ y ∣ ∣ ||\lambda x+(1-\lambda)y||^2\leq \lambda||x||^2+(1-\lambda)||y|| ∣∣λx+(1λ)y2λ∣∣x2+(1λ)∣∣y∣∣

   ⟺    \iff λ ∣ ∣ x ∣ ∣ 2 + ( 1 − λ ) ∣ ∣ y ∣ ∣ − ( λ x + ( 1 − λ ) y ) T ( λ x + ( 1 − λ ) y ) ≥ 0 \lambda||x||^2+(1-\lambda)||y||-(\lambda x+(1-\lambda)y)^T(\lambda x+(1-\lambda)y)\geq 0 λ∣∣x2+(1λ)∣∣y∣∣(λx+(1λ)y)T(λx+(1λ)y)0

   ⟺    \iff λ ∣ ∣ x ∣ ∣ 2 + ( 1 − λ ) ∣ ∣ y ∣ ∣ − ( λ x T + ( 1 − λ ) y T ) ( λ x + ( 1 − λ ) y ) ≥ 0 \lambda||x||^2+(1-\lambda)||y||-(\lambda x^T+(1-\lambda)y^T)(\lambda x+(1-\lambda)y)\geq 0 λ∣∣x2+(1λ)∣∣y∣∣(λxT+(1λ)yT)(λx+(1λ)y)0

   ⟺    \iff λ ∣ ∣ x ∣ ∣ 2 + ( 1 − λ ) ∣ ∣ y ∣ ∣ − ( λ 2 x T x + λ ( 1 − λ ) ( y T x + y T x ) + ( 1 − λ ) 2 y T y ) λ ( 1 − λ ) ( y T x + y T x ) ≥ 0 \lambda||x||^2+(1-\lambda)||y||-(\lambda^2 x^Tx+\lambda(1-\lambda)(y^Tx+y^Tx)+(1-\lambda)^2y^Ty)\lambda(1-\lambda)(y^Tx+y^Tx)\geq 0 λ∣∣x2+(1λ)∣∣y∣∣(λ2xTx+λ(1λ)(yTx+yTx)+(1λ)2yTy)λ(1λ)(yTx+yTx)0

   ⟺    \iff ( λ − λ 2 ) x T x + ( λ − λ 2 ) y T y − λ ( 1 − λ ) ( y T x + y T x ) ≥ 0 (\lambda-\lambda^2)x^Tx+(\lambda-\lambda^2)y^Ty-\lambda(1-\lambda)(y^Tx+y^Tx)\geq 0 (λλ2)xTx+(λλ2)yTyλ(1λ)(yTx+yTx)0

   ⟺    \iff ( λ − λ 2 ) x T x + ( λ − λ 2 ) y T y − λ ( 1 − λ ) ( y T x + y T x ) ≥ 0 (\lambda-\lambda^2)x^Tx+(\lambda-\lambda^2)y^Ty-\lambda(1-\lambda)(y^Tx+y^Tx)\geq 0 (λλ2)xTx+(λλ2)yTyλ(1λ)(yTx+yTx)0

λ ∈ [ 0 , 1 ] \lambda\in[0,1] λ[0,1],因此 λ ≥ λ 2 \lambda\geq \lambda^2 λλ2

   ⟺    \iff x T x + y T y − ( y T x + y T x ) ≥ 0 x^Tx+y^Ty-(y^Tx+y^Tx)\geq 0 xTx+yTy(yTx+yTx)0

   ⟺    \iff ( x T − y T ) ( x − y ) ≥ 0 (x^T-y^T)(x-y)\geq 0 (xTyT)(xy)0

   ⟺    \iff ∣ ∣ x − y ∣ ∣ 2 ≥ 0 ||x-y||^2\geq 0 ∣∣xy20

∣ ∣ x − y ∣ ∣ 2 ≥ 0 ||x-y||^2\geq 0 ∣∣xy20成立,故 ω T ω \omega^T\omega ωTω是凸函数,证毕。

2.2不一定,软间隔SVM模型表达为
m i n ω , b , ξ 1 2 ∣ ∣ ω ∣ ∣ 2 + C ∑ i = 1 m ξ i s . t . y ( i ) ( ω T x ( i ) + b ) ≥ 1 − ξ i ξ i ≥ 0 , ∀ i = 1 , 2 , . . . , m min_{\omega,b,\xi}\frac{1}{2}||\omega||^2+C\sum^m_{i=1}\xi_i \\ s.t. y^{(i)}(\omega^Tx^{(i)}+b)\geq1-\xi_i \\ \xi_i\geq0,\forall i=1,2,...,m minω,b,ξ21∣∣ω2+Ci=1mξis.t.y(i)(ωTx(i)+b)1ξiξi0,i=1,2,...,m
考虑一维情形如下
在这里插入图片描述

∀ ξ i = 0 \forall\xi_i=0 ξi=0,即退化为硬间隔SVM,求得决策边界为 ω 1 \omega_1 ω1

ξ j = 0 , j ≠ i \xi_j=0,j\neq i ξj=0,j=i,求得决策边界为 ω 2 \omega_2 ω2

目标函数设为 f f f f ( ω 1 ) = 1 2 ω 1 2 f(\omega_1)=\frac{1}{2}\omega_1^2 f(ω1)=21ω12 f ( ω 2 ) = 1 2 ω 2 2 + C ξ i f(\omega_2)=\frac{1}{2}\omega_2^2+C\xi_i f(ω2)=21ω22+Cξi

1 2 ω 1 2 > 1 2 ω 2 2 + C ξ i \frac{1}{2}\omega_1^2>\frac{1}{2}\omega_2^2+C\xi_i 21ω12>21ω22+Cξi时, ξ i \xi_i ξi可以不为0, ω 2 \omega_2 ω2优于 ω 1 \omega_1 ω1,因而最优解一定不是 ω 1 \omega_1 ω1.

软间隔SVM可以避免过拟合,正如上面的例子,右侧橙色点可能是噪声,用硬间隔SVM会拟合噪声;

相反,前者通过松弛变量,泛化模型,提高鲁棒性,因此某些情况下有必要使用软间隔SVM。

2.3①当 0 < α i ∗ < C 0<\alpha^*_i<C 0<αi<C时,

根据KTT条件 α i ∗ + r i ∗ = C \alpha^*_i+r^*_i=C αi+ri=C 0 < r i ∗ < C 0<r^*_i<C 0<ri<C

又因为 r i ∗ ξ i ∗ = 0 r^*_i\xi^*_i=0 riξi=0,所以 ξ i ∗ = 0 \xi^*_i=0 ξi=0

因为 α i ∗ ( y ( i ) ( ω ∗ T x ( i ) + b ∗ ) + ξ i ∗ − 1 ) = 0 \alpha^*_i(y^{(i)}({\omega^*}^Tx^{(i)}+b^*)+\xi^*_i-1)=0 αi(y(i)(ωTx(i)+b)+ξi1)=0

所以 y ( i ) ( ω ∗ T x ( i ) + b ∗ ) + ξ i ∗ − 1 = 0 y^{(i)}({\omega^*}^Tx^{(i)}+b^*)+\xi^*_i-1=0 y(i)(ωTx(i)+b)+ξi1=0

所以 y ( i ) ( ω ∗ T x ( i ) + b ∗ ) = 1 y^{(i)}({\omega^*}^Tx^{(i)}+b^*)=1 y(i)(ωTx(i)+b)=1

即 in-bound SVs 在支撑平面上。

②当 α i ∗ = C \alpha^*_i=C αi=C时,类似的可以得到 y ( i ) ( ω ∗ T x ( i ) + b ∗ ) + ξ i ∗ − 1 = 0 y^{(i)}({\omega^*}^Tx^{(i)}+b^*)+\xi^*_i-1=0 y(i)(ωTx(i)+b)+ξi1=0

ξ i ∗ ≥ 0 \xi^*_i\geq0 ξi0,因此 y ( i ) ( ω ∗ T x ( i ) + b ∗ ) ≤ 1 y^{(i)}({\omega^*}^Tx^{(i)}+b^*)\leq1 y(i)(ωTx(i)+b)1

即 bound SVs 在支撑平面上或者在间隔内。

而往往少数的点就能确定支撑平面(n 维空间 n 个点确定一个 boundary),因此大部分的点在间隔内。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

u小鬼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值