国科大prml--SVM

最新推荐文章于 2022-03-02 11:24:54 发布

叶落叶子

最新推荐文章于 2022-03-02 11:24:54 发布

阅读量265

点赞数 1

分类专栏：国科大模式识别与机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_40485502/article/details/103929877

版权

国科大模式识别与机器学习专栏收录该内容

15 篇文章 15 订阅

订阅专栏

拉格朗日的原始问题是 $min_{w,b} max_{\lambda} L$
对偶问题是 $max_{\lambda} min_{w,b}L$

	原问题	拉格朗日	对偶问题	分界面	最终参数
hard margin	$min_w \frac{1}{2}\\|w\\|^2$ 约束 $y^i(w^Tx^i)>=1,对任意i$	$L(\lambda_i,w,b)=\Sigma_{i=1}^N\lambda_i(1-y^i(w^Tx^i+b))_++\frac{1}{2} \\|w\\|^2$	$max_\lambda \theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^j$ 约束： $\lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0$	$b+\Sigma_{i=1}^n\lambda_i y^i (x^i)^Tx^j=0$	$w=\Sigma_{i=1}^n \lambda_iy^ix^i;b=y^j-\Sigma_{i=1}^n\lambda_i y^i (x^i)^Tx^j$
soft	$min_w \frac{1}{2}\\|w\\|^2+C\Sigma_{i=1}^n\xi_i$ 约束 $y^i(w^Tx^i)>=1-\xi_i,\xi_i \geq 0,对任意i$	$L(\lambda_i,\eta_i,\xi,w,b)=\Sigma_{i=1}^N\lambda_i(1-y^i(w^Tx^i+b)-\xi_i)-\Sigma_{i=1}^n\eta_i \xi_i+\frac{1}{2} \\|w\\|^2$	$max_\lambda \theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^j$ 约束： $\leq \lambda_i\leq C=\lambda_i+\eta_i(\eta_i>=0);\Sigma_{i=1}^n\lambda_iy^i=0$	$b+\Sigma_{i=1}^n\lambda_i y^i (x^i)^Tx^j=0$	$w=\Sigma_{i=1}^n \lambda_iy^ix^i;b=y^j-\Sigma_{i=1}^n\lambda_i y^i (x^i)^Tx^j$
kernel	-	-	$\theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_jK(x^i,x^j)$ 约束： $\lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0$	$w=\Sigma_{i=1}^n \lambda_iy^ix^i\\b=y^j-\Sigma_{i=1}^n\lambda_i y^i K(x^i,x^j)$

hard margin

原问题
- $min_w \frac{1}{2}||w||^2$
- 约束 $y^i(w^Tx^i)>=1,对任意i$
- 拉格朗日：
  - $L(\lambda_i,w,b)=\Sigma_{i=1}^N\lambda_i(1-y^i(w^Tx^i+b))_++\frac{1}{2} ||w||^2$ (拉格朗日问题)
- 损失函数
  - $\Sigma_{i=1}^Ni(1-y^i(w^Tx^i+b))_++\lambda||w||^2$
- 目标函数（hinge loss function)
  - $1-y^i(w^Tx^i+b))_+$
得到对偶形式：
- $\theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^j$
- 约束： $\lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0$
- 时间复杂度 $O(N^3)$
- 空间复杂度 $O(N^2)$
最终结果
- $w*=\Sigma_{i=1}^n \lambda_i*y^ix^i$
- $b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j$
- 所以分离超平面为： $b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j=0$
- 决策函数： $f_{w,b}=sign(b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j)$
转化为对偶问题会简单化（原问题复杂度高）
- 拉格朗日的原始问题是 $min_{w,b} max_{\lambda} L$
- 对偶问题是 $max_{\lambda} min_{w,b}L$
  - 对偶问题：
  - 消去w/b $\theta_D(w)=min_{w,b}L$
    - 求梯度
      - $\frac{\partial L}{\partial w}=w-\Sigma_{i=1}^n \lambda_iy^ix^i=0$
        $w=\Sigma_{i=1}^n \lambda_iy^ix^i$
      - $\frac{\partial L}{\partial b}=-\Sigma_{i=1}^n \lambda_iy^i=0$
        $\Sigma_{i=1}^n \lambda_iy^i=0$
    - 结果带入L–得到对偶问题
      - $\theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^j$
      - 约束： $\lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0$
  - 再求最大 $d^*<--max_{\lambda}\theta_D(w)$
    - 由新的对偶问题求极值点，得到最优解$\lambda* $
      - 由此可以找到 $w *, b *$
      - $w*=\Sigma_{i=1}^n \lambda_i*y^ix^i$
      - $b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j$
      - 所以分离超平面为： $b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx=0$
      - 决策函数： $f_{w,b}(x)=sign(b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx)$
      - 可以看出
        只受到支持向量的影响（其他的 $\lambda=0$
        正样本y=1,负样本y=-1,正样本对w起正向作用，负样本起负向作用

soft margin

问题描述
- $min_w \frac{1}{2}||w||^2+C\Sigma_{i=1}^n\xi_i$
- 约束 $y^i(w^Tx^i)>=1-\xi_i,\xi_i \geq 0,对任意i$
- 凸函数的QP问题
- 对应拉格朗日函数：
  - $L(\lambda_i,\eta_i,\xi,w,b)=\Sigma_{i=1}^N\lambda_i(1-y^i(w^Tx^i+b)-\xi_i)-\Sigma_{i=1}^n\eta_i \xi_i+\frac{1}{2} ||w||^2$
得到对偶形式：
- $max\theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^j$
- 约束： $\leq \lambda_i\leq C=\lambda_i+\eta_i(\eta_i>=0);\Sigma_{i=1}^n\lambda_iy^i=0$
- 原来 $\lambda_i$ 可以无限大，因为线性可分
- C–容忍度是有限的，对应了 $\lambda_i$ –C越大越苛刻，margin越小，容忍度越小
  - C的三种理解方式
    - 容忍度
      - 在中间范围内也算是分错了的点
      - C-会有多少个分错的点，C大容忍度小
    - 对 $\xi$ 的惩罚，C越大，惩罚越大，越苛刻
    - $C=\frac{1}{2\lambda},与\lambda是相反的，\lambda大，希望模型不要太复杂，也就是C小的情况$
  - 回忆KKT
    - $\lambda_i*f_i(w*)=0 and \eta_i*\xi_i=0$
    - $\lambda_i*=0==>y^i(b*+w*^Tx^i)>1,在正确的地方$
      - $\lambda_i*=0==>\eta_i*=C>0==>\xi=0==>y^i(b*+w*^Tx^i)>1-\xi=1,在正确的地方$
    - $0<\lambda_i*<C==>y^i(b*+w*^Tx^i)=1,在边界上---支持向量$
      - $\lambda_i*>0==>\eta_i*=C-\lambda_i*>0==>\xi=0==>y^i(b*+w*^Tx^i)=1-\xi=1,在正确的地方$
    - $\lambda_i*=C>0,\eta_i=0==>\xi>0==>y^i(b*+w*^Tx^i)=1-\xi<=1在错误的地方$
最终结果
- $w*=\Sigma_{i=1}^n \lambda_i*y^ix^i$
- $b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j$
- 所以分离超平面为： $b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j=0$
- 决策函数： $f_{w,b}=sign(b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j)$

kernel SVM

得到对偶形式：
- $\theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_jK(x^i,x^j)$
- 约束： $\lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0$
  - $w*=\Sigma_{i=1}^n \lambda_i*y^ix^i$
  - $b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i K(x^i,x^j)$
  - 所以分离超平面为： $b*+\Sigma_{i=1}^n\lambda_i* y^i K(x^i,x)=0$
  - 决策函数： $f_{w,b}(x)=w*^T\phi(x)+b*=sign(b*+\Sigma_{i=1}^n\lambda_i* y^i K(x^i,x)）$
常见几种核
1. hillbert space：可以再生任意函数（最重要的）
* $\phi(x)=K(·,x)\\K(x,z)=K(·,x)·K(·,z)=\phi(x)^T\phi(z)\\再生性：f(·)=\Sigma_{i=1}^m\alpha_iK(·,x^i)\\f(·)K(·,x)=\Sigma_{i=1}^m\alpha_iK(x,x^i)=f(x)，都是这个空间的两个函数$
2. 多项式核 $K(x,z)=(x^Tz+1)^p$
3. 高斯核： $K(x,z)=exp\{-\frac{\|x-z\|^2}{2\sigma^2}\}$ –radial basis function(RBF)
* $K(x,z)=exp\{-\frac{dist(x,z)}{2\sigma^2}\}$
* $f(x)=sign(\Sigma_{i=1}^n\alpha_i^*y^iexp\{-\frac{\|x-z\|^2}{2\sigma^2}\}+b^*)$
4. Sigmoid kernel： $K(x,x')=tanh(2x^Tx'+1)$

4.SMO–可以快速求解svm

用对偶形式
得到对偶形式：
- $\theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^j$
- 约束： $\lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0$
Coordinate Ascent:每一次仅对一个 $\lambda_i$ 求最大，从i=1,2,…,n
- 可以直接用在svm上吗？
  - 不可以， $\lambda$ 之间是线性相关的。
- 改进：每次对一对，其他n-2个固定，求最大。
SMO
- 每次对一对，其他n-2个固定： $\lambda_1y^1+\lambda_2y^2=-\Sigma_{i=3}^N\alpha_iy^i=C$
  - $\lambda_1=(C-\lambda_2y^2)y^1$
  - $L((C-\lambda_2y^2)y^1,\lambda_2,...,\lambda_N），先忽略约束求导，得到\lambda_2^{new,unclipped}，再加上约束$
  - $用\lambda_2更新\lambda_1:\lambda_1^{new}=\lambda_1^{old}(\lambda_2^{old}-\lambda_2^{new})y^2y^1$
- 从那一对开始呢？
  - 最优的 $\lambda$ 肯定是满足KKT条件的
    - $\lambda_i=0<==>y^ig(x^i)>=1$
    - $0<\lambda_i<C<==>y^ig(x^i)=1$
    - $\lambda_i=C<==>y^ig(x^i)<=1$
      - $g(x_i)=\Sigma_{j=1}^N\alpha_jy^jK(x^i,x^j)+b$
  - 每次选择违背KKT条件最大的
    - 从 $0<\lambda_i<C$ 的开始，违背最多的选择一个
    - 第二个有固定准则来选：E1-E2
      - $E_i=g(x^i)-y^i$