算法原理
- 数据集线性不可分情况下,要允许支持向量机容错
软间隔
- 允许部分样本不满足
m i n w , b 1 2 ∥ w ∥ 2 s . t . y i ( w T x + b ) ≥ 1 , i = 1 , 2 ⋅ ⋅ ⋅ , m \underset{w,b}{min}\frac{1}{2}\Vert w \Vert^2~~~s.t.~~y_i(w^Tx+b )\ge1,i=1,2···,m w,bmin21∥w∥2 s.t. yi(wTx+b)≥1,i=1,2⋅⋅⋅,m - 但是还是要最小化损失
- 满足条件损失为0;
- 当不满足时损失不为0
- (选)损失与其违反约束条件的程度成正比
-
m
i
n
w
,
b
1
2
∥
w
∥
2
+
C
∑
i
=
1
m
ℓ
0
/
1
(
y
i
(
w
T
x
i
+
b
)
−
1
)
\underset{w,b}{min}\frac{1}{2}\Vert w \Vert^2+C\sum_{i=1}^m \ell_{0/1}(y_i(w^Tx_i+b)-1)
w,bmin21∥w∥2+Ci=1∑mℓ0/1(yi(wTxi+b)−1)其中
ℓ
0
/
1
\ell_{0/1}
ℓ0/1是“0/1损失条件”,
z
=
y
i
(
w
T
x
i
+
b
)
−
1
z=y_i(w^Tx_i+b)-1
z=yi(wTxi+b)−1
ℓ 0 / 1 ( z ) = { 1 , i f z < 0 0 , i f z ⩾ 0 \ell _{0/1}\left( z \right) =\left\{ \begin{array}{c} 1,if\,\,z<0\\ 0,if\,\,z\geqslant 0\\ \end{array} \right. \\ ℓ0/1(z)={1,ifz<00,ifz⩾0
其中C用来调节损失函数权重,当其趋近于无穷大时,变成严格执行的约束调节成为硬间隔。 - 由于 ℓ 0 / 1 \ell_{0/1} ℓ0/1性质不佳,常用其他函数替代;软间隔支持向量机选用:hinge(合页)损失[连续凸函数] h i n g e 损失 : ℓ h i n g e ( z ) = m a x ( 0 , 1 − z ) hinge损失:\ell_{hinge}(z)=max(0,1-z) hinge损失:ℓhinge(z)=max(0,1−z) m i n w , b 1 2 ∥ w ∥ 2 + C ∑ i = 1 m m a x ( 0 , 1 − y i ( w T x i + b ) ) \underset{w,b}{min}\frac{1}{2}\Vert w \Vert^2+C\sum_{i=1}^m max(0,1-y_i(w^Tx_i+b)) w,bmin21∥w∥2+Ci=1∑mmax(0,1−yi(wTxi+b))
- 引入松弛变量
ξ
i
=
m
a
x
(
0
,
1
−
y
i
(
w
T
x
i
+
b
)
\xi_i=max(0,1-y_i(w^Tx_i+b)
ξi=max(0,1−yi(wTxi+b)
优化问题进一步等价
m i n w , b 1 2 ∥ w ∥ 2 + C ∑ i = 1 m ξ i \underset{w,b}{min}\frac{1}{2}\Vert w \Vert^2+C\sum_{i=1}^m \xi_i w,bmin21∥w∥2+Ci=1∑mξi s . t . − y i ( w T x i + b ) ≥ 1 − ξ i , ξ i ≥ 0 , i = 1 , 2 , . . . , m s.t.~-y_i(w^Tx_i+b)\ge1-\xi_i,\xi_i\ge0,i=1,2,...,m s.t. −yi(wTxi+b)≥1−ξi,ξi≥0,i=1,2,...,m
支持向量回归
线性回归:用线或者超平面拟合训练样本
SVR:用一个以
f
(
x
)
=
w
T
x
+
b
f(x)=w^Tx+b
f(x)=wTx+b为中心,宽度为
2
ϵ
2\epsilon
2ϵ的间隔带来拟合训练样本
- 核心思想:不在带上的点以偏离距离为损失,最小化损失,求取最优带
- SVR最优化问题
m i n w , b 1 2 ∥ w ∥ 2 + C ∑ i = 1 m ℓ ϵ ( f ( x i ) − y i ) \underset{w,b}{min}\frac{1}{2}\Vert w \Vert^2+C\sum_{i=1}^m \ell_{\epsilon}(f(x_i)-y_i) w,bmin21∥w∥2+Ci=1∑mℓϵ(f(xi)−yi)
- 经验风险:其中
ℓ
ϵ
(
z
)
\ell_{\epsilon}(z)
ℓϵ(z)是“
ϵ
不敏感损失函数
\epsilon不敏感损失函数
ϵ不敏感损失函数”( 类比均方误差损失),
ℓ ϵ ( z ) = { 0 , i f ∣ z ∣ ≤ ϵ ∣ z ∣ − ϵ , i f ∣ z ∣ > ϵ \ell _{\epsilon}\left( z \right) =\left\{ \begin{array}{c} 0,~~~if\,\,|z|\le\epsilon\\ |z|-\epsilon,if\,\,|z|> \epsilon \\ \end{array} \right. \\ ℓϵ(z)={0, if∣z∣≤ϵ∣z∣−ϵ,if∣z∣>ϵ - 机构风险:
1 2 ∥ w ∥ 2 \frac{1}{2}\Vert w \Vert^2 21∥w∥2为L2正则项,防止过拟合
- 引入松弛变量
ξ
i
=
ℓ
ϵ
(
f
(
x
i
)
−
y
i
)
\xi_i=\ell_{\epsilon} (f(x_i)-y_i)
ξi=ℓϵ(f(xi)−yi)
优化问题进一步等价
m i n w , b 1 2 ∥ w ∥ 2 + C ∑ i = 1 m ξ i \underset{w,b}{min}\frac{1}{2}\Vert w \Vert^2+C\sum_{i=1}^m \xi_i w,bmin21∥w∥2+Ci=1∑mξi s . t . − ϵ − ξ i ≤ f ( x i ) − y i ≤ ϵ + ξ i , ξ i ≥ 0 , i = 1 , 2 , . . . , m s.t.~-\epsilon-\xi_i\le f(x_i)-y_i\le\epsilon+\xi_i,\xi_i\ge0,i=1,2,...,m s.t. −ϵ−ξi≤f(xi)−yi≤ϵ+ξi,ξi≥0,i=1,2,...,m
对于上下越界点采取不同的松弛变量
m i n w , b 1 2 ∥ w ∥ 2 + C ∑ i = 1 m ( ξ i + ξ ^ i ) \underset{w,b}{min}\frac{1}{2}\Vert w \Vert^2+C\sum_{i=1}^m (\xi_i+\hat \xi_i) w,bmin21∥w∥2+Ci=1∑m(ξi+ξ^i) s . t . − ϵ − ξ ^ i ≤ f ( x i ) − y i ≤ ϵ + ξ i , ξ i ≥ 0 , ξ ^ i ≥ 0 , i = 1 , 2 , . . . , m s.t.~-\epsilon-\hat \xi_i\le f(x_i)-y_i\le\epsilon+\xi_i,\xi_i\ge0,\hat \xi_i\ge0,i=1,2,...,m s.t. −ϵ−ξ^i≤f(xi)−yi≤ϵ+ξi,ξi≥0,ξ^i≥0,i=1,2,...,m
学习笔记来源,指路☟
https://www.bilibili.com/video/BV1Mh411e7VU?p=10