文章目录
[LeCun Y., Chopra S., Hadsell R., Ranzato M. & Huang F. A Tutorial on Energy-Based Learning. To appear in “Predicting Structured Data, 2006, 1: 0.](paper2.dvi (lecun.com))
概
从能量的角度看一些函数, 这里就记录一下这些损失.
主要内容
E ( Y , X ) E(Y, X) E(Y,X)反映了 X , Y X, Y X,Y的关系, 认为能量越低, 而且的关系越紧密, 从下图中可以发现, X , Y X, Y X,Y的组合多种多样.
通常情况下, 我们需要训练一个映射, 其参数为
W
W
W, 一个好的参数可以使得
E
(
W
,
Y
,
X
)
E(W, Y, X)
E(W,Y,X)
很小. 不过我们通常会选取一些损失函数, 来间接最小化上面的能量函数
L
(
E
,
S
)
=
1
P
∑
i
=
1
P
L
(
Y
i
,
E
(
W
,
Y
,
X
i
)
)
+
R
(
W
)
,
\mathcal{L}(E, S) = \frac{1}{P} \sum_{i=1}^P L(Y^i, E(W, \mathcal{Y}, X^i)) + R(W),
L(E,S)=P1i=1∑PL(Yi,E(W,Y,Xi))+R(W),
其中
R
(
W
)
R(W)
R(W)是正则化项. 自然, 损失函数至少需要满足其最优点是最小化损失函数的, 当然应该还有一些其他的条件.
如果
Y
\mathcal{Y}
Y是离散的, 我们可以令
Y
ˉ
i
=
arg
min
Y
∈
Y
,
Y
≠
Y
i
E
(
W
,
Y
,
X
i
)
,
\bar{Y}^i = \arg \min_{Y \in \mathcal{Y}, Y \not= Y^i} E(W, Y, X^i),
Yˉi=argY∈Y,Y=YiminE(W,Y,Xi),
相应的连续情况下
Y
ˉ
i
=
arg
min
Y
∈
Y
,
∥
Y
−
Y
i
∥
>
ϵ
E
(
W
,
Y
,
X
i
)
,
\bar{Y}^i = \arg \min_{Y \in \mathcal{Y}, \|Y-Y^i\| > \epsilon} E(W, Y, X^i),
Yˉi=argY∈Y,∥Y−Yi∥>ϵminE(W,Y,Xi),
即
Y
ˉ
\bar{Y}
Yˉ是我们最不爽的点. 很自然, 我们希望损失函数将我们希望的点
Y
i
Y^i
Yi的能量降低, 而拔高我们讨厌的
Y
ˉ
i
\bar{Y}^i
Yˉi的能量.
损失函数
Energy Loss
L e n e r g y ( Y i , E ( W , Y , X i ) ) = E ( W , Y i , X i ) . L_{energy} (Y^i, E(W, \mathcal{Y}, X^i)) = E(W, Y^i, X^i). Lenergy(Yi,E(W,Y,Xi))=E(W,Yi,Xi).
Generalized Perceptron Loss
L p e r c e p t r o n ( Y i , E ( W , Y , X i ) ) = E ( W , Y i , X i ) − min Y ∈ Y E ( W , Y , X i ) . L_{perceptron} (Y^i, E(W, \mathcal{Y}, X^i)) = E(W, Y^i, X^i) - \min_{Y \in \mathcal{Y}} E(W, Y, X^i). Lperceptron(Yi,E(W,Y,Xi))=E(W,Yi,Xi)−Y∈YminE(W,Y,Xi).
Generalized Margin Loss
Hinge Loss
L h i n g e ( W , Y i , X i ) = max ( 0 , m + E ( W , Y i , X i ) − E ( W , Y ˉ i , X i ) ) . L_{hinge} (W, Y^i, X^i) = \max(0, m+E(W, Y^i, X^i) - E(W, \bar{Y}^i, X^i)). Lhinge(W,Yi,Xi)=max(0,m+E(W,Yi,Xi)−E(W,Yˉi,Xi)).
Log Loss
L l o g ( W , Y i , X i ) = log ( 1 + e E ( W , Y i , X i ) − E ( W , Y ˉ i , X i ) ) . L_{log} (W, Y^i,X^i) = \log (1+e^{E(W, Y^i, X^i)-E(W, \bar{Y}^i, X^i)}). Llog(W,Yi,Xi)=log(1+eE(W,Yi,Xi)−E(W,Yˉi,Xi)).
LVQ2 Loss
L
l
v
q
2
(
W
,
Y
i
,
X
i
)
=
min
(
1
,
max
(
0
,
E
(
W
,
Y
i
,
X
i
)
−
E
(
W
,
Y
ˉ
i
,
X
i
)
δ
E
(
W
,
Y
ˉ
i
,
X
i
)
)
)
.
L_{lvq2}(W, Y^i, X^i) = \min (1, \max(0, \frac{E(W, Y^i, X^i)- E(W, \bar{Y}^i, X^i)}{\delta E(W, \bar{Y}^i, X^i)})).
Llvq2(W,Yi,Xi)=min(1,max(0,δE(W,Yˉi,Xi)E(W,Yi,Xi)−E(W,Yˉi,Xi))).
虽然LVQ2 Loss和上面的非margin loss一样, 似乎是没margin的, 但是作者说最后二者有一个饱和的比例
1
+
δ
1+\delta
1+δ, 但是不是特别理解.
MCE Loss
L
m
c
e
(
W
,
Y
i
,
X
i
)
=
σ
(
E
(
W
,
Y
i
,
X
i
)
−
E
(
W
,
Y
ˉ
i
,
X
i
)
)
,
L_{mce} (W, Y^i, X^i) = \sigma (E(W, Y^i, X^i)-E(W, \bar{Y}^i, X^i)),
Lmce(W,Yi,Xi)=σ(E(W,Yi,Xi)−E(W,Yˉi,Xi)),
其中
σ
\sigma
σ是sigmoid.
Square-Square Loss
L s q − s q ( W , Y i , X i ) = E ( X , Y i , X i ) 2 + ( max ( 0 , m − E ( W , Y ˉ i , X i ) ) ) 2 . L_{sq-sq} (W, Y^i, X^i) = E(X, Y^i, X^i)^2 + (\max(0, m-E(W, \bar{Y}^i, X^i)))^2. Lsq−sq(W,Yi,Xi)=E(X,Yi,Xi)2+(max(0,m−E(W,Yˉi,Xi)))2.
Square-Exponential
L s q − e x p ( W , Y i , X i ) = E ( W , Y i , X i ) 2 + γ e − E ( W , Y ˉ i , X i ) . L_{sq-exp} (W, Y^i, X^i) = E(W, Y^i, X^i)^2 + \gamma e^{-E(W,\bar{Y}^i, X^i)}. Lsq−exp(W,Yi,Xi)=E(W,Yi,Xi)2+γe−E(W,Yˉi,Xi).
Negative Log-Likelihood Loss
L
n
l
l
(
W
,
Y
i
,
X
i
)
=
E
(
W
,
Y
i
,
X
i
)
+
F
β
(
W
,
Y
,
X
i
)
,
L_{nll}(W, Y^i, X^i) = E(W, Y^i, X^i) + \mathcal{F}_{\beta} (W, \mathcal{Y}, X^i),
Lnll(W,Yi,Xi)=E(W,Yi,Xi)+Fβ(W,Y,Xi),
其中
F
β
(
W
,
Y
,
X
i
)
=
1
β
log
(
∫
y
∈
Y
exp
(
−
β
E
(
W
,
y
,
X
i
)
)
)
.
\mathcal{F}_{\beta}(W, \mathcal{Y}, X^i) = \frac{1}{\beta} \log (\int_{y \in \mathcal{Y}} \exp (-\beta E(W, y, X^i))).
Fβ(W,Y,Xi)=β1log(∫y∈Yexp(−βE(W,y,Xi))).
Empirical Error Loss
L m e e ( W , Y i , X i ) = 1 − e − β E ( W , Y i , X i ) ∫ y ∈ Y e − β E ( W , y , X i ) . L_{mee} (W, Y^i, X^i) = 1 - \frac{e^{-\beta E(W, Y^i, X^i)}}{\int_{y \in \mathcal{Y}}e^{-\beta E(W, y, X^i)}}. Lmee(W,Yi,Xi)=1−∫y∈Ye−βE(W,y,Xi)e−βE(W,Yi,Xi).
好的损失应该满足的一些条件
都是充分条件, 所以不满足也有可能是满足所需要的性质的.
条件1
对于样本
(
X
i
,
Y
i
)
(X^i, Y^i)
(Xi,Yi), 如果预测满足
E
(
W
,
Y
i
,
X
i
)
<
E
(
W
,
Y
,
X
i
)
,
∀
Y
∈
Y
a
n
d
Y
≠
Y
i
.
E(W, Y^i, X^i) < E(W, Y, X^i), \quad \forall Y \in \mathcal{Y} \: and \: Y \not = Y^i.
E(W,Yi,Xi)<E(W,Y,Xi),∀Y∈YandY=Yi.
则推断结果应当为
Y
i
Y^i
Yi.
条件2
对于变量
Y
Y
Y以及样本
(
X
i
,
Y
i
)
(X^i, Y^i)
(Xi,Yi)和margin
m
m
m, 若
E
(
W
,
Y
i
,
X
i
)
<
E
(
W
,
Y
ˉ
,
X
i
)
−
m
,
E(W, Y^i, X^i) < E(W, \bar{Y}, X^i) - m,
E(W,Yi,Xi)<E(W,Yˉ,Xi)−m,
则推断结果应当为
Y
i
Y^i
Yi.
条件3
这个条件就用语言描述吧.
即, 要求
H
P
1
HP_1
HP1与可行域
R
R
R的交集中存在一解, 是的
(
X
i
,
Y
i
)
(X^i, Y^i)
(Xi,Yi)在该点处的能量比
H
P
2
HP_2
HP2与
R
R
R交集的所有解的能量都要小, 其中
H
P
1
:
E
C
+
m
<
E
I
H
P
2
:
E
C
+
m
>
E
I
.
HP_1: E_C+m < E_I \\ HP_2: E_C + m > E_I.
HP1:EC+m<EIHP2:EC+m>EI.
E
C
=
E
(
W
,
Y
i
,
X
i
)
E_C=E(W, Y^i, X^i)
EC=E(W,Yi,Xi),
E
I
=
E
(
W
,
Y
ˉ
i
,
X
i
)
E_I=E(W, \bar{Y}^i, X^i)
EI=E(W,Yˉi,Xi).
下图给出了满足上述三个条件的损失及其对应的 m m m.