【Datawhale-机器学习-Task07-支持向量机】

【学习内容:西瓜书与南瓜书:第六章–支持向量机】

【一、基本定义】

样本空间中任意点x到超平面 ( ω , b ) \left ( \omega ,b \right ) (ω,b) 的距离为:
r = ∣ ω T x + b ∣ ∥ ω ∥ r=\frac{\left | \omega ^{T} x+b \right | }{\left \| \omega \right \| } r=ω ωTx+b

假设超平面 ( ω , b ) \left ( \omega ,b \right ) (ω,b)可以将样本进行正确的分类,即存在
{ ω T + b ≥ + 1 , y i = + 1 ω T + b ≤ − 1 , y i = − 1 \left\{ \begin{aligned} \omega ^{T}+b\ge +1,y_{i} =+1 \\ \omega ^{T}+b\le -1,y_{i} =-1 \end{aligned} \right. {ωT+b+1,yi=+1ωT+b1,yi=1
⇓ \Downarrow
y i ( ω T x i + b ) ≥ 1 , i = 1 , 2 , ⋯   , n y_{i} \left ( \omega ^{T} x_{i} +b \right ) \ge 1,i=1,2,\cdots ,n yi(ωTxi+b)1,i=1,2,,n

【定义:支持向量】距离超平面最近的这几个训练样本点使上式的等号成立,它们被称之为“支持向量”。
两个异类支持向量到超平面的距离之和为
γ = 2 ∥ ω ∥ \gamma =\frac{2}{\left \| \omega \right \| } γ=ω2
也被称为“间隔”。

则最优化问题变成
max ⁡ ω , b 2 ∥ ω ∥ \max_{\omega ,b} \frac{2}{\left \| \omega \right \| } ω,bmaxω2
s . t .    y i ( ω T x i + b ) ≥ 1 ,    i = 1 , 2 , ⋯   , m . s.t. \, \, y_{i} \left ( \omega ^{T}x_{i} +b \right ) \ge 1, \, \,i=1,2,\cdots ,m. s.t.yi(ωTxi+b)1,i=1,2,,m.
变换下形式,改成
min ⁡ ω , b 1 2 ∥ ω ∥ 2 \min_{\omega ,b} \frac{1}{2} \left \| \omega \right \|^{2} ω,bmin21ω2
s . t .    y i ( ω T x i + b ) ≥ 1 ,    i = 1 , 2 , ⋯   , m . s.t. \, \, y_{i} \left ( \omega ^{T}x_{i} +b \right ) \ge 1, \, \,i=1,2,\cdots ,m. s.t.yi(ωTxi+b)1,i=1,2,,m.
即为支持向量机(Support Vector Machine,简称SVM)的基本型。

【二、对偶问题】

对于一般地约束优化问题 min ⁡ f ( x )  s.t.  g i ( x ) ⩽ 0 i = 1 , 2 , … , m h j ( x ) = 0 j = 1 , 2 , … , n \begin{array}{lll} \min & f(\boldsymbol{x}) \\ \text { s.t. } & g_{i}(\boldsymbol{x}) \leqslant 0 \quad i=1,2, \ldots, m \\ & h_{j}(\boldsymbol{x})=0 \quad j=1,2, \ldots, n \end{array} min s.t. f(x)gi(x)0i=1,2,,mhj(x)=0j=1,2,,n
若目标函数 f ( x ) f\left ( x \right ) f(x) 是凸函数,约束集合是凸集,则称上述优化问题为凸优化问题,特别地, g i ( x ) g_{i} \left ( x \right ) gi(x) 是凸函数, h i ( x ) h_{i} \left ( x \right ) hi(x)是线性函数时,约束集合为凸集,该优化问题为凸优化问题。

显然,针对支持向量机的函数进行分析,可得到支持向量机是一个凸优化问题。

拉格朗日函数为:
L ( x , μ , λ ) = f ( x ) + ∑ i = 1 m μ i g i ( x ) + ∑ j = 1 n λ j h j L\left ( x,\mu ,\lambda \right ) =f\left ( x \right ) +\sum_{i=1}^{m} \mu_{i} g_{i}(\boldsymbol{x})+\sum_{j=1}^{n} \lambda_{j} h_{j} L(x,μ,λ)=f(x)+i=1mμigi(x)+j=1nλjhj
拉格朗日对偶函数:
Γ ( μ , λ ) = inf ⁡ x ∈ D L ( x , μ , λ ) = inf ⁡ x ∈ D ( f ( x ) + ∑ i = 1 m μ i g i ( x ) + ∑ j = 1 n λ j h j ( x ) ) \Gamma(\boldsymbol{\mu}, \boldsymbol{\lambda})=\inf _{\boldsymbol{x} \in D} L(\boldsymbol{x}, \boldsymbol{\mu}, \boldsymbol{\lambda})=\inf _{\boldsymbol{x} \in D}\left(f(\boldsymbol{x})+\sum_{i=1}^{m} \mu_{i} g_{i}(\boldsymbol{x})+\sum_{j=1}^{n} \lambda_{j} h_{j}(\boldsymbol{x})\right) Γ(μ,λ)=xDinfL(x,μ,λ)=xDinf(f(x)+i=1mμigi(x)+j=1nλjhj(x))
对偶函数重要性质:
(1)无论上述优化问题是否是凸优化问题,其对偶函数 Γ ( μ , λ ) \Gamma(\boldsymbol{\mu}, \boldsymbol{\lambda}) Γ(μ,λ)恒为凹函数;
(2)当 μ ⪰ 0 \mu \succeq 0 μ0时, Γ ( μ , λ ) \Gamma(\boldsymbol{\mu}, \boldsymbol{\lambda}) Γ(μ,λ)构成了上述优化问题最优值的下界,也即 Γ ( μ , λ ) ≤ p ∗ \Gamma(\boldsymbol{\mu}, \boldsymbol{\lambda})\le p^{*} Γ(μ,λ)p.

参考资料与文献
1、周志华. 机器学习[M]. 北京:清华大学出版社,2016.
2、谢文睿 秦州 贾彬彬 . 机器学习公式详解 第 2 版[M]. 人民邮电出版社,2023
3、感谢Datawhale小组所做的贡献,本次学习主要参考视频:https://www.bilibili.com/video/BV1Mh411e7VU?p=9&vd_source=7f1a93b833d8a7093eb3533580254fe4。

  • 6
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值