7.1 软间隔SVM等价于最小化L2正则的合页损失
上一篇 说到, ξi ξ i 表示偏离边界的度量,若样本点 (xi,yi) ( x i , y i ) 满足约束时,则 ξi=0 ξ i = 0 , 当不满足约束时, ξi=1−yi(w⋅xi+b) ξ i = 1 − y i ( w ⋅ x i + b ) ,表示偏离margin的度量。
则把上面的合起来:
ξi=max(0,1−yi(w⋅xi+b))
ξ
i
=
m
a
x
(
0
,
1
−
y
i
(
w
⋅
x
i
+
b
)
)
那么优化目标函数可以写为:
min w,b 12||w||2+C∑Ni=1max(0,1−yi(w⋅xi+b)) (1) m i n w , b 1 2 | | w | | 2 + C ∑ i = 1 N m a x ( 0 , 1 − y i ( w ⋅ x i + b ) ) ( 1 )
其中,我们把式子中的
Lhinge=max( 1−z , 0)
L
h
i
n
g
e
=
m
a
x
(
1
−
z
,
0
)
称为hinge合页损失函数。
我们可以看到 L2 正则化的合页损失函数可以等价于软间隔SVM。
但是,软间隔SVM的优势在于:
- 是一个二次规划问题(QP),可以利用核技巧
- max(0,1-z)不是可微的,难以解决,无法用梯度下降。
7.2 软间隔SVM与L2正则的0-1损失
软间隔允许某些样本不满足约束
yi(w⋅xi+b)≥1;
y
i
(
w
⋅
x
i
+
b
)
≥
1
;
,而且我们希望在最大化间隔时,不满足约束的样本尽可能少。
那么优化目标函数可以写为:
min w,b 12||w||2+C∑Ni=1L0/1(yi(w⋅xi+b)−1) (2) m i n w , b 1 2 | | w | | 2 + C ∑ i = 1 N L 0 / 1 ( y i ( w ⋅ x i + b ) − 1 ) ( 2 )
C 为无穷大时,迫使所有样本满足约束,C为有限值时,允许一些样本不满足约束。
其中, L0/1 L 0 / 1 是0-1损失函数,代表当不满足约束时,记为 1. 但是,0-1损失函数是非凸非连续函数,数学性质不好,通常使用凸函数且是0-1损失函数的上界来代替损失函数:
- hinge合页损失函数:
Lhinge=max( 1−z , 0) L h i n g e = m a x ( 1 − z , 0 ) - 指数算损失:
Lexpz=e−z L e x p z = e − z - 对率损失: Llogz=log2(1+e−z) L l o g z = l o g 2 ( 1 + e − z )
7.3 软间隔SVM和L2正则的损失函数的对应关系
使用
- 最大间隔对应L2正则化项
- 一个大的C对应一个小的 λ λ
- 软间隔对应特殊的损失
那么,软间隔SVM可以视为一个加L2正则化的模型。
7.4 逻辑回归模型和线性支持向量机的关系
针对(2),如果将0-1损失函数 L0/1 L 0 / 1 替换成对数损失函数 Llog L l o g (也就是极大似然函数),那么就几乎得到了逻辑回归模型(周志华《机器学习》P57)。
实际上,支持向量机和逻辑回归的优化目标相近,性能也相当。
逻辑回归的优势:
- 有自然的概率意义,在给出预测标记的同时给出概率。
- 能应用于多分类任务。
SVM的优势:
- 支持向量机的解只依赖于支持向量,逻辑回归的解依赖于更多的训练样本,预测开销比较大。
7.5 Platt模型:SVM的概率模型
- run SVM on D .得到 (bsvm,wsvm) ( b s v m , w s v m ) , 并 把D转换到 z=wTsvmϕ(x)+bsvm z = w s v m T ϕ ( x ) + b s v m
- 把{ (zi,yi)N1 ( z i , y i ) 1 N }代入逻辑回归模型得出A,B
- return g(x)=LogReg(A⋅z+B) g ( x ) = L o g R e g ( A ⋅ z + B )
这样就能把SVM的结果转化成概率。