Problem Set 3

u小鬼

已于 2022-12-21 13:22:17 修改

阅读量811

点赞数 1

分类专栏：机器学习文章标签：算法拉格朗日对偶

于 2022-12-21 13:16:04 首次发布

本文链接：https://blog.csdn.net/qq_23096319/article/details/128395771

版权

机器学习专栏收录该内容

21 篇文章 11 订阅

订阅专栏

1Lagrange Duality Formulate the Lagrange dual problem of the following
linear programming prob-lem min cT rs.t.Ax 二b where a ∈R is variable,c
∈ R"，A ∈Rk×n, b ∈ Rk.

在这里插入图片描述

解：设拉格朗日函数为 $\mathcal{L}(x,\lambda)=c^Tx+\lambda^T(Ax-b)$ ,

对应的对偶函数为 $\mathcal{G}(\lambda)=inf_{\lambda}\ \mathcal{L}(x,\lambda)$ ，

而LP问题与对偶问题强对偶，KTT 条件成立，满足 stationarity

$\nabla_{x}c^Tx^*+{\lambda^*}^T(Ax-b)=0$

$\Longrightarrow$ $c^T+{\lambda^*}^TA=0$

以及 $Ax^*-b=0$ ，因此该点处拉格朗日函数可以表达为

$\mathcal{L}(x^*,\lambda^*)=(-\lambda^TA)(A^{-1}b)+\lambda^T(Ax^*-b)$

$\mathcal{L}(x^*,\lambda^*)=-\lambda^T b$

根据 Dual feasibility 得 $\lambda_i\geq 0$

LP问题的对偶问题标准形式为
$max_{\lambda}\ -\lambda^T b \\ s.t. \lambda\geq 0,c^T+{\lambda}^TA=0$
这里补充一种做法：
将拉格朗日对偶函数变换为 $\mathcal{G}(\lambda)=inf\mathcal{L}(x,\lambda)=inf(c^T+\lambda^TA)x-\lambda^Tb$ ，
当 $c^T+\lambda^TA=0$ 时， $\mathcal{G}(\lambda)=-\lambda^Tb$ ；
否则， $\mathcal{G}(\lambda)=\infty$ ，不存在极值。

sVM
2.1Convex Functions Prove f(w) = w" . (where w ∈ R") is a convex function.2.2Soft-Margin for Separable Data Consider training a
soft-margin SVM with C set to some positive constant.Suppose the
training data is linearly separable. Since increasing the 6; can
onlyincrease the objective of the primal problem (which we are trying
to minimize),at the optimal solution to the primal problem，all the
training examples willhave functional margin at least 1 and all the i
will be equal to zero. True orfalse? Explain! Given a linearly
separable dataset, is it necessarily better to usea a hard margin SVM
over a soft-margin SVM?
2.3In-bound Support Vectors in Soft-Margin sVMs Examples ar() with a > 0 are called support vectors (SVs). For soft-marginsVM we distinguish
between in-bound SVs，for which 0 <Qi<C, and boundsVs for which a; = C.
Show that in-bound SVs lie exactly on the margin.Argue that bound SVs
can lie both on or in the margin，and that they will“usually” lie in
the margin. Hint: use the KKT conditions.

在这里插入图片描述

2.1证： $\omega^T\omega$ 是凸函数

$\iff$ $||\lambda x+(1-\lambda)y||^2\leq \lambda||x||^2+(1-\lambda)||y||$

$\iff$ $\lambda||x||^2+(1-\lambda)||y||-(\lambda x+(1-\lambda)y)^T(\lambda x+(1-\lambda)y)\geq 0$

$\iff$ $\lambda||x||^2+(1-\lambda)||y||-(\lambda x^T+(1-\lambda)y^T)(\lambda x+(1-\lambda)y)\geq 0$

$\iff$ $\lambda||x||^2+(1-\lambda)||y||-(\lambda^2 x^Tx+\lambda(1-\lambda)(y^Tx+y^Tx)+(1-\lambda)^2y^Ty)\lambda(1-\lambda)(y^Tx+y^Tx)\geq 0$

$\iff$ $(\lambda-\lambda^2)x^Tx+(\lambda-\lambda^2)y^Ty-\lambda(1-\lambda)(y^Tx+y^Tx)\geq 0$

而 $\lambda\in[0,1]$ ，因此 $\lambda\geq \lambda^2$ ，

$\iff$ $x^Tx+y^Ty-(y^Tx+y^Tx)\geq 0$

$\iff$ $(x^T-y^T)(x-y)\geq 0$

$\iff$ $||x-y||^2\geq 0$

而 $||x-y||^2\geq 0$ 成立，故 $\omega^T\omega$ 是凸函数，证毕。

2.2不一定，软间隔SVM模型表达为
$min_{\omega,b,\xi}\frac{1}{2}||\omega||^2+C\sum^m_{i=1}\xi_i \\ s.t. y^{(i)}(\omega^Tx^{(i)}+b)\geq1-\xi_i \\ \xi_i\geq0,\forall i=1,2,...,m$
考虑一维情形如下
在这里插入图片描述

令 $\forall\xi_i=0$ ，即退化为硬间隔SVM，求得决策边界为 $\omega_1$ ；

令 $\xi_j=0,j\neq i$ ，求得决策边界为 $\omega_2$ ；

目标函数设为 $f$ ， $f(\omega_1)=\frac{1}{2}\omega_1^2$ ， $f(\omega_2)=\frac{1}{2}\omega_2^2+C\xi_i$ ，

当 $\frac{1}{2}\omega_1^2>\frac{1}{2}\omega_2^2+C\xi_i$ 时， $\xi_i$ 可以不为0， $\omega_2$ 优于 $\omega_1$ ，因而最优解一定不是 $\omega_1$ .

软间隔SVM可以避免过拟合，正如上面的例子，右侧橙色点可能是噪声，用硬间隔SVM会拟合噪声；

相反，前者通过松弛变量，泛化模型，提高鲁棒性，因此某些情况下有必要使用软间隔SVM。

2.3①当 $0<\alpha^*_i<C$ 时，

根据KTT条件 $\alpha^*_i+r^*_i=C$ 得 $0<r^*_i<C$ ，

又因为 $r^*_i\xi^*_i=0$ ，所以 $\xi^*_i=0$ ，

因为 $\alpha^*_i(y^{(i)}({\omega^*}^Tx^{(i)}+b^*)+\xi^*_i-1)=0$ ，

所以 $y^{(i)}({\omega^*}^Tx^{(i)}+b^*)+\xi^*_i-1=0$ ，

所以 $y^{(i)}({\omega^*}^Tx^{(i)}+b^*)=1$ ，

即 in-bound SVs 在支撑平面上。

②当 $\alpha^*_i=C$ 时，类似的可以得到 $y^{(i)}({\omega^*}^Tx^{(i)}+b^*)+\xi^*_i-1=0$ ，

而 $\xi^*_i\geq0$ ，因此 $y^{(i)}({\omega^*}^Tx^{(i)}+b^*)\leq1$ ，

即 bound SVs 在支撑平面上或者在间隔内。

而往往少数的点就能确定支撑平面（n 维空间 n 个点确定一个 boundary），因此大部分的点在间隔内。

u小鬼

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Problem Set 3

而往往少数的点就能确定支撑平面（n 维空间 n 个点确定一个 boundary），因此大部分的点在间隔内。软间隔SVM可以避免过拟合，正如上面的例子，右侧橙色点可能是噪声，用硬间隔SVM会拟合噪声；相反，前者通过松弛变量，泛化模型，提高鲁棒性，因此某些情况下有必要使用软间隔SVM。，KTT 条件成立，满足 stationarity。根据 Dual feasibility 得。，即退化为硬间隔SVM，求得决策边界为。2.2不一定，软间隔SVM模型表达为。，因此该点处拉格朗日函数可以表达为。
复制链接

扫一扫