最优化方法(学习笔记)-第八章SVM&范数&SVD

oliveQ

于 2021-03-10 15:13:58 发布

阅读量933

点赞数 1

分类专栏：最优化方法（学习笔记）文章标签：机器学习支持向量机

本文链接：https://blog.csdn.net/u011412840/article/details/114630591

版权

最优化方法（学习笔记）专栏收录该内容

11 篇文章 34 订阅

订阅专栏

SVM&范数&SVD

支持向量机SVM
范数Norm
奇异值分解SVD
总结

支持向量机SVM

线性判别

在这里插入图片描述

最大分类间隔器

利用线性判别的性质，可以通过最大间隔来做分类【直线是超平面，两侧直线上的点是支持向量】
在这里插入图片描述

两平面间的距离计算公式
在这里插入图片描述
于是距离宽度是 $dist=\frac{2a}{||w||_2}\propto \frac{1}{||w||_2}$
所以不妨令 $a = 1$

目标函数： $\max{\frac{1}{||w||_2}}\iff\min{\frac{||w||_2^2}{2}}$
约束条件： $f(x)=1-y_i(w^Tx_i+b)$ ，标签y=1/-1
目的是寻找超平面的参数 $\hat{w}和\hat{b}$

对偶函数： $g(\alpha)=\inf_{w,b}{L(w,b,\alpha)}$
KKT的四个条件
求导计算

得到 $g(\alpha)=-1/2\sum_i\sum_j\alpha_i\alpha_jy_iy_jx_ix_j+\sum_{i=1}^n\alpha_i$
设 $H_{ij}=y_iy_jx_i*x_j\isin S_{++}^n$ 对称半正定矩阵
于是 $g(\alpha)=-1/2\alpha^TH\alpha+1^T\alpha$
转变求对偶问题
$\max{-1/2\alpha^TH\alpha+1^T\alpha}$
$s.t.\space \alpha\geq0,\sum{\alpha_iy_i}=0$
用QP-solver得到 $\alpha，\hat{w}=\sum_{i\isin S}{\alpha_iy_ix_i},\alpha_i\neq0$
$\hat{b}=1/N_S \sum_{i\isin S}{(y_i-\sum_j{\alpha_jy_jx_j*x_i})}$
$y_i=\sum_{j\isin S}{\alpha_jy_jx_j*x_i}+\hat{b}$

支持向量分类器Support vector classifier

Support vector classifier就是引入了软间隔，实现有容错率的线性分割超平面
在这里插入图片描述

优化问题（ $\gamma$ ）
在这里插入图片描述

支持向量机SVM-核函数

SVM就是引入的核函数，针对线性不可分的判别问题，指基于（低维到高维）映射函数（未知）的内积函数，通常这个映射函数很难找，而且求w的公式指出，仅需寻找一个合适的内积函数就行。
在这里插入图片描述

范数Norm

数值的范数

范数的判定条件 $f:R^n\rightarrow R$

$f(x)\geq0$
$f(x)=0\iff x=0$
$f (t x) = ∣ t ∣ f (x)$
$f(x+y)\leq f(x)+f(y)$

p范数： $||X||_p=(\sum_{i=1}^n{|x_i|^p)^{\frac{1}{p}}}$

若 $p\rightarrow\infty,||x||_{\infty}=\lim_{p\rightarrow \infty}(\sum{|x_i|^p)^{\frac{1}{p}}}$
设 $u=\max_i{|x_i|}，k=\arg\max_i{|x_i|}$
$||x||_{\infty}=\lim_{p\rightarrow \infty}(u^p(1+\sum_{i\neq k}{|\frac{x_i}{u}|^p))^{\frac{1}{p}}}$
$\quad\quad=u\lim_{p\rightarrow \infty}(1+\sum_{i\neq k}{\alpha_i^p)^{\frac{1}{p}}}=u$
所以： $||x||_{\infty}=\max_i{|x_i|}$

矩阵的范数

范数定义：
$X\isin R^{m\times n}，||X||_{a,b}=\sup\{||xu||_a|\space||u||_b\leq1\}$
当a=b=p， $X||_p=||X||_{p,p}$

以下设p=2， $xu||_2^2=u^Tx^Txu$

设 $A=x^Tx，G=u^TAu,\lambda_{max}=\sup{u^TAu}$

A就是特征值组成的对角矩阵，通过对A做正交分解

$设A=\sum{\lambda_iv_iv_i^T},u=\sum{c_iv_i},\sum{c_i^2}\leq1$
【 $i\neq j$ 时， $v_iv_j=0$ ,v是标准正交基】

得到 $G=\sum_{i,j,k}{c_iv_i^T\lambda_jv_jv_j^Tc_kv_k}=\sum{c_i^2\lambda_i}\leq \lambda_{max}$

所以 $||X||_2=\sigma_{max}(X)=(\lambda_{max}(x^Tx))^{\frac12}$
同理求得 $||xu||_\infty=\max_i{\sum_j{|x_{ij}}|}$
max-row-sum norm
同理求得 $||xu||_1=\max_j{\sum_i{|x_{ij}}|}$
max-col-sum norm

对偶范数

对偶范数定义：
$z\isin R^n,||z||_*=\sup\{z^Tx|\space||x||\leq1\}$

$||z||_{\infty*}=\sup\{z^Tx|\space||x||_\infty\leq1\}$

若 $||x||_\infty\leq1$ ,那么x只能等于1或者-1

$z^Tx=\sum{z_ix_i}\leq\sum|z_i|\xlongequal{x_i=sign{(z_i)}}||z||_1$

$||z||_{\infty*}=||z||_1，同理||z||_{1*}=||z||_{\infty}$

$||z||_{2*}=\sup\{z^Tx|\space||x||_2\leq1\}$

$z^Tx=||z||_2||x||_2\cos{\theta}\leq||z||_2||x||_2\leq||z||_2$

$z||_{2*}=||z||_2$
另外： $||z||_{p*}=||z||_q(\frac1p+\frac1q=1,p,q\geq1)$

奇异值分解SVD

若A是对称矩阵 $A\isin R^{n\times n}$
$Q^T=Q^{-1}，A=Q\Lambda Q^{T}=\sum{\lambda_iq_iq_i^T}$
- $Q$ 每一列是特征向量
- $\Lambda$ 每一个对角元素是特征值
- 做特征分解
  $Aq_i=\lambda_iq_i$
  $det(A)=\Pi_{i=1}^n{\lambda_i}$
  $tr(A)=\sum_{i=1}^n{\lambda_i}$
  $||A||_2=\max_{i}{\lambda_i}$
- 瑞利熵
- PCA（主成分分析）就是瑞利熵理论的一个应用
  LDA（线性判别分析）是泛化瑞利熵的一个应用
A不是对称方针， $A\isin R^{m\times n}$
- $A=U\sum V^{T},rank(A)=r$
- $U^TU=I,V^TV=I,\sum=diag(\sigma_1,...,\sigma_r)$
- $A=\sum_i^r{\sigma_iu_iv_i^T}$
- 分解 $A^TA=v\sum u^Tu\sum v^T=v\sum^2v^T$
  - v是 $A^TA$ 的特征向量
  - $\sigma_i^2是A^TA$ 的特征值
- 分解 $AA^T=u\sum v^Tv\sum u^T=u\sum^2u^T$
  - u是 $AA^T$ 的特征向量
  - $\sigma_i^2是AA^T$ 的特征值
- pesudo-inverse（伪逆）
  $A^+=V\sum^{-1}U^T=V\sum^{-2}V^TV\sum U^T$
  $\quad=(A^TA)^{-1}A^T$
  若Ax=b，那么 $x=(A^TA)^{-1}A^Tb=A^+b$

总结

支持向量机
- 优化问题
  $\min \frac12||w||_2^2$
  $s.t.\quad 1-y_i(w^Tx_i+b)\leq0,\forall i$
- 对偶问题&KKT条件
  互补松弛条件----支撑性质---->支持向量
- 非线性分类问题
  核函数K，映射函数 $x=\phi(z)$
范数
- 内积 $x,y>=x^Ty$
  内积核夹角的关系： $\cos{\theta}=\frac{x^Ty}{||x||||y||}$
- P范数 $||X||_p=(\sum_{i=1}^n{|x_i|^p)^{\frac{1}{p}}}$
  p=0：非零元素个数
  p=1： $||x||_1=\sum_i{|x_i|}$
  p=2： $||x||_{2}=\sqrt{\sum_i{x_i^2}}$
  p= $\infty$ ： $||x||_{\infty}=\max_i{|x_i|}$
- 矩阵范数 $||X||_{a,b}=\sup\{||xu||_a|\space||u||_b\leq1\}$
  p=2： $||X||_2=(\lambda_{max}(x^Tx))^{\frac12}$
  p=1： $||xu||_1=\max_j{\sum_i{|x_{ij}}|}$
  p= $\infty$ ： $||xu||_\infty=\max_i{\sum_j{|x_{ij}}|}$
- 对偶范数 $||z||_*=\sup\{z^Tx|\space||x||\leq1\}$
  $||z||_{\infty*}=||z||_1$
  $||z||_{1*}=||z||_{\infty}$
  $z||_{2*}=||z||_2$
  $||z||_{p*}=||z||_q(\frac1p+\frac1q=1,p,q\geq1)$
奇异值分解
- 对称矩阵（特征分解） $A=Q\Lambda Q^{T}$
  Rayleigh quotient： $R(A,x)=\frac{x^TAx}{x^Tx},|\lambda_{min},\lambda_{max}|$
- 非对称矩阵（伪逆） $A=U\sum V^{T},rank(A)=r$
  pseudo-inverse： $A^{+}=(A^TA)^{-1}A^T$

oliveQ

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
最优化方法(学习笔记)-第八章SVM&范数&SVD

SVM&范数&SVD支持向量机SVM线性判别最大分类间隔器支持向量分类器Support vector classifier支持向量机SVM-核函数范数Norm数值的范数矩阵的范数对偶范数奇异值分解SVD总结支持向量机SVM线性判别最大分类间隔器利用线性判别的性质，可以通过最大间隔来做分类【直线是超平面，两侧直线上的点是支持向量】两平面间的距离计算公式于是距离宽度是dist=2a∣∣w∣∣2∝1∣∣w∣∣2dist=\frac{2a}{||w||_2}\propto \fra
复制链接

扫一扫

专栏目录