文章目录
个人学习笔记,参考B站 《机器学习白板推导系列》课程、周志华《机器学习》、李航《统计学习方法》。
1 SVM原理
SVM有三宝,间隔、对偶、核技巧。
支持向量机:
- 硬间隔(hard-margin SVM)
- 软间隔(soft-margin SVM)
- 核函数(kernel SVM)
1.1 硬间隔分类器
1.1.1 最大间隔分类器
设定:
- 分类超平面为: w T x + b = 0 w^Tx + b = 0 wTx+b=0
- 数据集: D ∈ { ( x i , y i ) } n = 1 N D \in \{(x_i,y_i)\}_{n=1}^{N} D∈{ (xi,yi)}n=1N
- x i ∈ R p , y ∈ { − 1 , 1 } x_i \in R^p,y \in \{-1,1\} xi∈Rp,y∈{ −1,1}
硬间隔分类器,也称为“最大间隔分类器”,根据定义原问题可以写成:
max w , b m a r g i n ( w , b ) s . t . { w T x i + b > 0 , y i = + 1 w T x i + b < 0 , y i = − 1 \begin{aligned} & \max_{w,b} margin(w, b) \\ & s.t. \begin{cases} w^Tx_i+b>0,y_i=+1 \\ w^Tx_i+b<0,y_i=-1 \end{cases} \end{aligned} w,bmaxmargin(w,b)s.t.{
wTxi+b>0,yi=+1wTxi+b<0,yi=−1
margin为所有样本到超平面最小的距离。 定义 m a r g i n ( w , b ) margin(w,b) margin(w,b) :
m a r g i n ( w , b ) = min w , b , x i , i = 1 , 2 , ⋯ , N d i s t a n c e ( w , b , x i ) margin(w,b)=\min_{w,b,x_i,i=1,2,\cdots,N} distance(w,b,x_i) margin(w,b)=w,b,xi,i=1,2,⋯,Nmindistance(w,b,xi)
distance为样本 x i x_i xi 到超平面的距离。 定义点 x i x_i xi到超平面 w T x + b w^Tx+b wTx+b的距离 d i s t a n c e ( w , b , x i ) distance(w,b,x_i) distance(w,b,xi) 为:
d i s t a n c e ( x , b , x i ) = ∣ w T x i + b ∣ ∣ ∣ w ∣ ∣ distance(x,b,x_i)=\frac{|w^Tx_i+b|}{||w||} distance(x,b,xi)=∣∣w∣∣∣wTxi+b∣
1.1.2 损失函数
整理上一节公式得到:
max w , b min x i ∣ w T x i + b ∣ ∣ ∣ w ∣ ∣ = max w , b 1 ∣ ∣ w ∣ ∣ min x i ∣ w T x i + b ∣ = max w , b 1 ∣ ∣ w ∣ ∣ min x i y i ( w T x i + b ) ∵ y i ( x T x i + b ) > 0 ∴ ∃ r > 0 , 使 min x i y i ( w T x i + b ) = r 令 r = 1 , 则 min x i y i ( w T x i + b ) = 1 \begin{aligned} & \max_{w,b} \min_{x_i} \frac{|w^Tx_i+b|}{||w||} \\ & =\max_{w,b} \frac{1}{||w||} \min_{x_i} |w^Tx_i+b| \\ & = \max_{w,b} \frac{1}{||w||} \min_{x_i} y_i(w^Tx_i+b) \\ & \because \ \ y_i(x^Tx_i+b)>0 \\ & \therefore \ \ \exists r>0,使 \min_{x_i} y_i(w^Tx_i+b)=r \\ & 令\ r=1,则 \min_{x_i} y_i(w^Tx_i+b)=1 \\ \end{aligned} w,bmaxximin∣∣w∣∣∣wTxi+b∣=w,bmax∣∣w∣∣1ximin∣wTxi+b∣=w,bmax∣∣w∣∣1ximinyi(wTxi+b)∵ yi(xTxi+b)>0∴ ∃r>0,使ximinyi(wTxi+b)=r令 r=1,则ximinyi(wTxi+b)=1
即:
{ max w , b ∣ ∣ w ∣ ∣ − 1 s . t . min x i y i ( w T x i + b ) = 1 转 换 形 式 : { min w , b ∣ ∣ w ∣ ∣ s . t . y i ( w T x i + b ) ≥ 1 \begin{aligned} & \begin{cases} \max_{w,b} {||w||}^{-1} \\ s.t. \ \ \ \min_{x_i} y_i(w^Tx_i+b)=1 \end{cases} \\ \\ & 转换形式: \\ \\ & \begin{cases} \min_{w,b} ||w|| \\ s.t. \ \ \ y_i(w^Tx_i+b) \ge 1 \end{cases} \end{aligned} {
maxw,b∣∣w∣∣−1s.t. minxiyi(wTxi+b)=1转换形式:{
minw,b∣∣w∣∣s.t. yi(wTxi+b)≥1
最终得到 损失函数:
{ min w , b