SVM&范数&SVD
支持向量机SVM
线性判别
最大分类间隔器
利用线性判别的性质,可以通过最大间隔来做分类【直线是超平面,两侧直线上的点是支持向量】
两平面间的距离计算公式
于是距离宽度是
d
i
s
t
=
2
a
∣
∣
w
∣
∣
2
∝
1
∣
∣
w
∣
∣
2
dist=\frac{2a}{||w||_2}\propto \frac{1}{||w||_2}
dist=∣∣w∣∣22a∝∣∣w∣∣21
所以不妨令
a
=
1
a=1
a=1
-
目标函数: max 1 ∣ ∣ w ∣ ∣ 2 ⟺ min ∣ ∣ w ∣ ∣ 2 2 2 \max{\frac{1}{||w||_2}}\iff\min{\frac{||w||_2^2}{2}} max∣∣w∣∣21⟺min2∣∣w∣∣22
-
约束条件: f ( x ) = 1 − y i ( w T x i + b ) f(x)=1-y_i(w^Tx_i+b) f(x)=1−yi(wTxi+b),标签y=1/-1
-
目的是寻找超平面的参数 w ^ 和 b ^ \hat{w}和\hat{b} w^和b^
对偶函数: g ( α ) = inf w , b L ( w , b , α ) g(\alpha)=\inf_{w,b}{L(w,b,\alpha)} g(α)=infw,bL(w,b,α) -
KKT的四个条件
-
求导计算
得到 g ( α ) = − 1 / 2 ∑ i ∑ j α i α j y i y j x i x j + ∑ i = 1 n α i g(\alpha)=-1/2\sum_i\sum_j\alpha_i\alpha_jy_iy_jx_ix_j+\sum_{i=1}^n\alpha_i g(α)=−1/2∑i∑jαiαjyiyjxixj+∑i=1nαi -
设 H i j = y i y j x i ∗ x j ∈ S + + n H_{ij}=y_iy_jx_i*x_j\isin S_{++}^n Hij=yiyjxi∗xj∈S++n对称半正定矩阵
于是 g ( α ) = − 1 / 2 α T H α + 1 T α g(\alpha)=-1/2\alpha^TH\alpha+1^T\alpha g(α)=−1/2αTHα+1Tα -
转变求对偶问题
max − 1 / 2 α T H α + 1 T α \max{-1/2\alpha^TH\alpha+1^T\alpha} max−1/2αTHα+1Tα
s . t . α ≥ 0 , ∑ α i y i = 0 s.t.\space \alpha\geq0,\sum{\alpha_iy_i}=0 s.t. α≥0,∑αiyi=0 -
用QP-solver得到 α , w ^ = ∑ i ∈ S α i y i x i , α i ≠ 0 \alpha,\hat{w}=\sum_{i\isin S}{\alpha_iy_ix_i},\alpha_i\neq0 α,w^=∑i∈Sαiyixi,αi=0
-
b ^ = 1 / N S ∑ i ∈ S ( y i − ∑ j α j y j x j ∗ x i ) \hat{b}=1/N_S \sum_{i\isin S}{(y_i-\sum_j{\alpha_jy_jx_j*x_i})} b^=1/NS∑i∈S(yi−∑jαjyjxj∗xi)
-
y i = ∑ j ∈ S α j y j x j ∗ x i + b ^ y_i=\sum_{j\isin S}{\alpha_jy_jx_j*x_i}+\hat{b} yi=∑j∈Sαjyjxj∗xi+b^
支持向量分类器Support vector classifier
Support vector classifier就是引入了软间隔,实现有容错率的线性分割超平面
优化问题(
γ
\gamma
γ)
支持向量机SVM-核函数
SVM就是引入的核函数,针对线性不可分的判别问题,指基于(低维到高维)映射函数(未知)的内积函数,通常这个映射函数很难找,而且求w的公式指出,仅需寻找一个合适的内积函数就行。
范数Norm
数值的范数
范数的判定条件 f : R n → R f:R^n\rightarrow R f:Rn→R
- f ( x ) ≥ 0 f(x)\geq0 f(x)≥0
- f ( x ) = 0 ⟺ x = 0 f(x)=0\iff x=0 f(x)=0⟺x=0
- f ( t x ) = ∣ t ∣ f ( x ) f(tx)=|t|f(x) f(tx)=∣t∣f(x)
- f ( x + y ) ≤ f ( x ) + f ( y ) f(x+y)\leq f(x)+f(y) f(x+y)≤f(x)+f(y)
p范数: ∣ ∣ X ∣ ∣ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p ||X||_p=(\sum_{i=1}^n{|x_i|^p)^{\frac{1}{p}}} ∣∣X∣∣p=(∑i=1n∣xi∣p)p1
- 若
p
→
∞
,
∣
∣
x
∣
∣
∞
=
lim
p
→
∞
(
∑
∣
x
i
∣
p
)
1
p
p\rightarrow\infty,||x||_{\infty}=\lim_{p\rightarrow \infty}(\sum{|x_i|^p)^{\frac{1}{p}}}
p→∞,∣∣x∣∣∞=limp→∞(∑∣xi∣p)p1
设 u = max i ∣ x i ∣ , k = arg max i ∣ x i ∣ u=\max_i{|x_i|},k=\arg\max_i{|x_i|} u=maxi∣xi∣,k=argmaxi∣xi∣
∣ ∣ x ∣ ∣ ∞ = lim p → ∞ ( u p ( 1 + ∑ i ≠ k ∣ x i u ∣ p ) ) 1 p ||x||_{\infty}=\lim_{p\rightarrow \infty}(u^p(1+\sum_{i\neq k}{|\frac{x_i}{u}|^p))^{\frac{1}{p}}} ∣∣x∣∣∞=limp→∞(up(1+∑i=k∣uxi∣p))p1
= u lim p → ∞ ( 1 + ∑ i ≠ k α i p ) 1 p = u \quad\quad=u\lim_{p\rightarrow \infty}(1+\sum_{i\neq k}{\alpha_i^p)^{\frac{1}{p}}}=u =ulimp→∞(1+∑i=kαip)p1=u
所以: ∣ ∣ x ∣ ∣ ∞ = max i ∣ x i ∣ ||x||_{\infty}=\max_i{|x_i|} ∣∣x∣∣∞=maxi∣xi∣
矩阵的范数
- 范数定义:
X ∈ R m × n , ∣ ∣ X ∣ ∣ a , b = sup { ∣ ∣ x u ∣ ∣ a ∣ ∣ ∣ u ∣ ∣ b ≤ 1 } X\isin R^{m\times n},||X||_{a,b}=\sup\{||xu||_a|\space||u||_b\leq1\} X∈Rm×n,∣∣X∣∣a,b=sup{∣∣xu∣∣a∣ ∣∣u∣∣b≤1} - 当a=b=p, ∣ ∣ X ∣ ∣ p = ∣ ∣ X ∣ ∣ p , p ||X||_p=||X||_{p,p} ∣∣X∣∣p=∣∣X∣∣p,p
以下设p=2, ∣ ∣ x u ∣ ∣ 2 2 = u T x T x u ||xu||_2^2=u^Tx^Txu ∣∣xu∣∣22=uTxTxu
设 A = x T x , G = u T A u , λ m a x = sup u T A u A=x^Tx,G=u^TAu,\lambda_{max}=\sup{u^TAu} A=xTx,G=uTAu,λmax=supuTAu
A就是特征值组成的对角矩阵,通过对A做正交分解
设
A
=
∑
λ
i
v
i
v
i
T
,
u
=
∑
c
i
v
i
,
∑
c
i
2
≤
1
设A=\sum{\lambda_iv_iv_i^T},u=\sum{c_iv_i},\sum{c_i^2}\leq1
设A=∑λiviviT,u=∑civi,∑ci2≤1
【
i
≠
j
i\neq j
i=j时,
v
i
v
j
=
0
v_iv_j=0
vivj=0,v是标准正交基】
得到 G = ∑ i , j , k c i v i T λ j v j v j T c k v k = ∑ c i 2 λ i ≤ λ m a x G=\sum_{i,j,k}{c_iv_i^T\lambda_jv_jv_j^Tc_kv_k}=\sum{c_i^2\lambda_i}\leq \lambda_{max} G=∑i,j,kciviTλjvjvjTckvk=∑ci2λi≤λmax
- 所以 ∣ ∣ X ∣ ∣ 2 = σ m a x ( X ) = ( λ m a x ( x T x ) ) 1 2 ||X||_2=\sigma_{max}(X)=(\lambda_{max}(x^Tx))^{\frac12} ∣∣X∣∣2=σmax(X)=(λmax(xTx))21
- 同理求得
∣
∣
x
u
∣
∣
∞
=
max
i
∑
j
∣
x
i
j
∣
||xu||_\infty=\max_i{\sum_j{|x_{ij}}|}
∣∣xu∣∣∞=maxi∑j∣xij∣
max-row-sum norm - 同理求得
∣
∣
x
u
∣
∣
1
=
max
j
∑
i
∣
x
i
j
∣
||xu||_1=\max_j{\sum_i{|x_{ij}}|}
∣∣xu∣∣1=maxj∑i∣xij∣
max-col-sum norm
对偶范数
- 对偶范数定义:
z ∈ R n , ∣ ∣ z ∣ ∣ ∗ = sup { z T x ∣ ∣ ∣ x ∣ ∣ ≤ 1 } z\isin R^n,||z||_*=\sup\{z^Tx|\space||x||\leq1\} z∈Rn,∣∣z∣∣∗=sup{zTx∣ ∣∣x∣∣≤1}
∣ ∣ z ∣ ∣ ∞ ∗ = sup { z T x ∣ ∣ ∣ x ∣ ∣ ∞ ≤ 1 } ||z||_{\infty*}=\sup\{z^Tx|\space||x||_\infty\leq1\} ∣∣z∣∣∞∗=sup{zTx∣ ∣∣x∣∣∞≤1}
若 ∣ ∣ x ∣ ∣ ∞ ≤ 1 ||x||_\infty\leq1 ∣∣x∣∣∞≤1,那么x只能等于1或者-1
z T x = ∑ z i x i ≤ ∑ ∣ z i ∣ = x i = s i g n ( z i ) ∣ ∣ z ∣ ∣ 1 z^Tx=\sum{z_ix_i}\leq\sum|z_i|\xlongequal{x_i=sign{(z_i)}}||z||_1 zTx=∑zixi≤∑∣zi∣xi=sign(zi)∣∣z∣∣1
- ∣ ∣ z ∣ ∣ ∞ ∗ = ∣ ∣ z ∣ ∣ 1 , 同 理 ∣ ∣ z ∣ ∣ 1 ∗ = ∣ ∣ z ∣ ∣ ∞ ||z||_{\infty*}=||z||_1,同理||z||_{1*}=||z||_{\infty} ∣∣z∣∣∞∗=∣∣z∣∣1,同理∣∣z∣∣1∗=∣∣z∣∣∞
∣ ∣ z ∣ ∣ 2 ∗ = sup { z T x ∣ ∣ ∣ x ∣ ∣ 2 ≤ 1 } ||z||_{2*}=\sup\{z^Tx|\space||x||_2\leq1\} ∣∣z∣∣2∗=sup{zTx∣ ∣∣x∣∣2≤1}
z T x = ∣ ∣ z ∣ ∣ 2 ∣ ∣ x ∣ ∣ 2 cos θ ≤ ∣ ∣ z ∣ ∣ 2 ∣ ∣ x ∣ ∣ 2 ≤ ∣ ∣ z ∣ ∣ 2 z^Tx=||z||_2||x||_2\cos{\theta}\leq||z||_2||x||_2\leq||z||_2 zTx=∣∣z∣∣2∣∣x∣∣2cosθ≤∣∣z∣∣2∣∣x∣∣2≤∣∣z∣∣2
- ∣ ∣ z ∣ ∣ 2 ∗ = ∣ ∣ z ∣ ∣ 2 ||z||_{2*}=||z||_2 ∣∣z∣∣2∗=∣∣z∣∣2
- 另外: ∣ ∣ z ∣ ∣ p ∗ = ∣ ∣ z ∣ ∣ q ( 1 p + 1 q = 1 , p , q ≥ 1 ) ||z||_{p*}=||z||_q(\frac1p+\frac1q=1,p,q\geq1) ∣∣z∣∣p∗=∣∣z∣∣q(p1+q1=1,p,q≥1)
奇异值分解SVD
-
若A是对称矩阵 A ∈ R n × n A\isin R^{n\times n} A∈Rn×n
Q T = Q − 1 , A = Q Λ Q T = ∑ λ i q i q i T Q^T=Q^{-1},A=Q\Lambda Q^{T}=\sum{\lambda_iq_iq_i^T} QT=Q−1,A=QΛQT=∑λiqiqiT-
Q Q Q每一列是特征向量
-
Λ \Lambda Λ每一个对角元素是特征值
-
做特征分解
A q i = λ i q i Aq_i=\lambda_iq_i Aqi=λiqi
d e t ( A ) = Π i = 1 n λ i det(A)=\Pi_{i=1}^n{\lambda_i} det(A)=Πi=1nλi
t r ( A ) = ∑ i = 1 n λ i tr(A)=\sum_{i=1}^n{\lambda_i} tr(A)=∑i=1nλi
∣ ∣ A ∣ ∣ 2 = max i λ i ||A||_2=\max_{i}{\lambda_i} ∣∣A∣∣2=maxiλi -
瑞利熵
-
PCA(主成分分析)就是瑞利熵理论的一个应用
LDA(线性判别分析)是泛化瑞利熵的一个应用
-
-
A不是对称方针, A ∈ R m × n A\isin R^{m\times n} A∈Rm×n
- A = U ∑ V T , r a n k ( A ) = r A=U\sum V^{T},rank(A)=r A=U∑VT,rank(A)=r
- U T U = I , V T V = I , ∑ = d i a g ( σ 1 , . . . , σ r ) U^TU=I,V^TV=I,\sum=diag(\sigma_1,...,\sigma_r) UTU=I,VTV=I,∑=diag(σ1,...,σr)
-
A
=
∑
i
r
σ
i
u
i
v
i
T
A=\sum_i^r{\sigma_iu_iv_i^T}
A=∑irσiuiviT
- 分解
A
T
A
=
v
∑
u
T
u
∑
v
T
=
v
∑
2
v
T
A^TA=v\sum u^Tu\sum v^T=v\sum^2v^T
ATA=v∑uTu∑vT=v∑2vT
- v是 A T A A^TA ATA的特征向量
- σ i 2 是 A T A \sigma_i^2是A^TA σi2是ATA的特征值
- 分解
A
A
T
=
u
∑
v
T
v
∑
u
T
=
u
∑
2
u
T
AA^T=u\sum v^Tv\sum u^T=u\sum^2u^T
AAT=u∑vTv∑uT=u∑2uT
- u是 A A T AA^T AAT的特征向量
- σ i 2 是 A A T \sigma_i^2是AA^T σi2是AAT的特征值
- pesudo-inverse(伪逆)
A + = V ∑ − 1 U T = V ∑ − 2 V T V ∑ U T A^+=V\sum^{-1}U^T=V\sum^{-2}V^TV\sum U^T A+=V∑−1UT=V∑−2VTV∑UT
= ( A T A ) − 1 A T \quad=(A^TA)^{-1}A^T =(ATA)−1AT
若Ax=b,那么 x = ( A T A ) − 1 A T b = A + b x=(A^TA)^{-1}A^Tb=A^+b x=(ATA)−1ATb=A+b
总结
-
支持向量机
- 优化问题
min 1 2 ∣ ∣ w ∣ ∣ 2 2 \min \frac12||w||_2^2 min21∣∣w∣∣22
s . t . 1 − y i ( w T x i + b ) ≤ 0 , ∀ i s.t.\quad 1-y_i(w^Tx_i+b)\leq0,\forall i s.t.1−yi(wTxi+b)≤0,∀i - 对偶问题&KKT条件
互补松弛条件----支撑性质---->支持向量 - 非线性分类问题
核函数K,映射函数 x = ϕ ( z ) x=\phi(z) x=ϕ(z)
- 优化问题
-
范数
- 内积
<
x
,
y
>
=
x
T
y
<x,y>=x^Ty
<x,y>=xTy
内积核夹角的关系: cos θ = x T y ∣ ∣ x ∣ ∣ ∣ ∣ y ∣ ∣ \cos{\theta}=\frac{x^Ty}{||x||||y||} cosθ=∣∣x∣∣∣∣y∣∣xTy - P范数
∣
∣
X
∣
∣
p
=
(
∑
i
=
1
n
∣
x
i
∣
p
)
1
p
||X||_p=(\sum_{i=1}^n{|x_i|^p)^{\frac{1}{p}}}
∣∣X∣∣p=(∑i=1n∣xi∣p)p1
p=0:非零元素个数
p=1: ∣ ∣ x ∣ ∣ 1 = ∑ i ∣ x i ∣ ||x||_1=\sum_i{|x_i|} ∣∣x∣∣1=∑i∣xi∣
p=2: ∣ ∣ x ∣ ∣ 2 = ∑ i x i 2 ||x||_{2}=\sqrt{\sum_i{x_i^2}} ∣∣x∣∣2=∑ixi2
p= ∞ \infty ∞: ∣ ∣ x ∣ ∣ ∞ = max i ∣ x i ∣ ||x||_{\infty}=\max_i{|x_i|} ∣∣x∣∣∞=maxi∣xi∣ - 矩阵范数
∣
∣
X
∣
∣
a
,
b
=
sup
{
∣
∣
x
u
∣
∣
a
∣
∣
∣
u
∣
∣
b
≤
1
}
||X||_{a,b}=\sup\{||xu||_a|\space||u||_b\leq1\}
∣∣X∣∣a,b=sup{∣∣xu∣∣a∣ ∣∣u∣∣b≤1}
p=2: ∣ ∣ X ∣ ∣ 2 = ( λ m a x ( x T x ) ) 1 2 ||X||_2=(\lambda_{max}(x^Tx))^{\frac12} ∣∣X∣∣2=(λmax(xTx))21
p=1: ∣ ∣ x u ∣ ∣ 1 = max j ∑ i ∣ x i j ∣ ||xu||_1=\max_j{\sum_i{|x_{ij}}|} ∣∣xu∣∣1=maxj∑i∣xij∣
p= ∞ \infty ∞: ∣ ∣ x u ∣ ∣ ∞ = max i ∑ j ∣ x i j ∣ ||xu||_\infty=\max_i{\sum_j{|x_{ij}}|} ∣∣xu∣∣∞=maxi∑j∣xij∣ - 对偶范数
∣
∣
z
∣
∣
∗
=
sup
{
z
T
x
∣
∣
∣
x
∣
∣
≤
1
}
||z||_*=\sup\{z^Tx|\space||x||\leq1\}
∣∣z∣∣∗=sup{zTx∣ ∣∣x∣∣≤1}
∣ ∣ z ∣ ∣ ∞ ∗ = ∣ ∣ z ∣ ∣ 1 ||z||_{\infty*}=||z||_1 ∣∣z∣∣∞∗=∣∣z∣∣1
∣ ∣ z ∣ ∣ 1 ∗ = ∣ ∣ z ∣ ∣ ∞ ||z||_{1*}=||z||_{\infty} ∣∣z∣∣1∗=∣∣z∣∣∞
∣ ∣ z ∣ ∣ 2 ∗ = ∣ ∣ z ∣ ∣ 2 ||z||_{2*}=||z||_2 ∣∣z∣∣2∗=∣∣z∣∣2
∣ ∣ z ∣ ∣ p ∗ = ∣ ∣ z ∣ ∣ q ( 1 p + 1 q = 1 , p , q ≥ 1 ) ||z||_{p*}=||z||_q(\frac1p+\frac1q=1,p,q\geq1) ∣∣z∣∣p∗=∣∣z∣∣q(p1+q1=1,p,q≥1)
- 内积
<
x
,
y
>
=
x
T
y
<x,y>=x^Ty
<x,y>=xTy
-
奇异值分解
- 对称矩阵(特征分解)
A
=
Q
Λ
Q
T
A=Q\Lambda Q^{T}
A=QΛQT
Rayleigh quotient: R ( A , x ) = x T A x x T x , ∣ λ m i n , λ m a x ∣ R(A,x)=\frac{x^TAx}{x^Tx},|\lambda_{min},\lambda_{max}| R(A,x)=xTxxTAx,∣λmin,λmax∣ - 非对称矩阵(伪逆)
A
=
U
∑
V
T
,
r
a
n
k
(
A
)
=
r
A=U\sum V^{T},rank(A)=r
A=U∑VT,rank(A)=r
pseudo-inverse: A + = ( A T A ) − 1 A T A^{+}=(A^TA)^{-1}A^T A+=(ATA)−1AT
- 对称矩阵(特征分解)
A
=
Q
Λ
Q
T
A=Q\Lambda Q^{T}
A=QΛQT