hinge loss:支持向量机损失函数
1.对于训练集中的第
i
i
i张图片数据
x
i
x_i
xi,在
W
W
W下会有一个得分结果向量
f
(
x
i
,
W
)
f(x_i,W)
f(xi,W);
2.第
j
j
j类的得分我们记作
f
(
x
i
,
W
)
j
f(x_i,W)_j
f(xi,W)j;
3.则在该样本上的损失,我们由下列的公式可以计算得到
(1)
L
i
=
∑
j
≠
y
i
m
a
x
(
0
,
f
(
x
i
,
W
)
j
−
f
(
x
i
,
W
)
y
i
+
△
)
L_i=\sum_{ {j}{\ne} y_i} max(0,f(x_i,W)_j-f(x_i,W)_{y_i}+\bigtriangleup) \tag 1
Li=j̸=yi∑max(0,f(xi,W)j−f(xi,W)yi+△)(1)
建设我们现在有三个类别,而得分函数计算某张图片的得分为
f
(
x
i
,
W
)
=
[
13
,
−
7
,
11
]
f(x_i,W)=[13,-7,11]
f(xi,W)=[13,−7,11],而实际的结果是第一类(
y
i
=
0
y_i=0
yi=0)。假设
△
=
10
\bigtriangleup=10
△=10,上面的公式把错误类别(
j
j
j不等于
y
i
y_i
yi)都遍历类一遍。求值加和:
(2)
L
i
=
m
a
x
(
0
,
−
7
−
13
+
10
)
+
m
a
x
(
0
,
11
−
13
+
10
)
L_i=max(0,-7-13+10)+max(0,11-13+10) \tag 2
Li=max(0,−7−13+10)+max(0,11−13+10)(2)
其中,
△
\bigtriangleup
△相当于SVM中的分离“道”的宽度。
因为是线性模型,因此可以简化成:
(3)
L
i
=
∑
j
≠
y
i
m
a
x
(
0
,
w
j
T
x
i
−
w
y
i
T
x
i
+
△
)
L_i=\sum_{j\ne y_i}max(0,w_{j}^{T}x_i-w_{y_i}^{T}x_i+\bigtriangleup) \tag 3
Li=j̸=yi∑max(0,wjTxi−wyiTxi+△)(3)
加正则化项
(4)
L
=
1
N
∑
i
L
i
+
λ
R
(
W
)
L=\frac{1}{N}\sum_i L_i+\lambda R(W) \tag 4
L=N1i∑Li+λR(W)(4)其中
1
N
∑
i
L
i
\frac{1}{N}\sum_i L_i
N1∑iLi为data loss,
λ
R
(
W
)
\lambda R(W)
λR(W)为正则化损失。
将(4)式展开得: L = 1 N ∑ i ∑ j ≠ y i [ m a x ( 0 , f ( x i ; W ) j − f ( x i ; W ) y i + △ ) ] + λ ∑ k ∑ l L=\frac{1}{N}\sum_i \sum_{j\ne y_i}[max(0,f(xi;W)_j-f(x_i;W)_{y_i}+\bigtriangleup)]+\lambda\sum_{k}\sum_{l} L=N1i∑j̸=yi∑[max(0,f(xi;W)j−f(xi;W)yi+△)]+λk∑l∑
正确分类的分值越大越好,错误分类的分值越小越好。