A Tutorial on Energy-Based Learning

[LeCun Y., Chopra S., Hadsell R., Ranzato M. & Huang F. A Tutorial on Energy-Based Learning. To appear in “Predicting Structured Data, 2006, 1: 0.](paper2.dvi (lecun.com))

从能量的角度看一些函数, 这里就记录一下这些损失.

主要内容

E ( Y , X ) E(Y, X) E(Y,X)反映了 X , Y X, Y X,Y的关系, 认为能量越低, 而且的关系越紧密, 从下图中可以发现, X , Y X, Y X,Y的组合多种多样.

image-20201129094902796

通常情况下, 我们需要训练一个映射, 其参数为 W W W, 一个好的参数可以使得
E ( W , Y , X ) E(W, Y, X) E(W,Y,X)
很小. 不过我们通常会选取一些损失函数, 来间接最小化上面的能量函数
L ( E , S ) = 1 P ∑ i = 1 P L ( Y i , E ( W , Y , X i ) ) + R ( W ) , \mathcal{L}(E, S) = \frac{1}{P} \sum_{i=1}^P L(Y^i, E(W, \mathcal{Y}, X^i)) + R(W), L(E,S)=P1i=1PL(Yi,E(W,Y,Xi))+R(W),
其中 R ( W ) R(W) R(W)是正则化项. 自然, 损失函数至少需要满足其最优点是最小化损失函数的, 当然应该还有一些其他的条件.

如果 Y \mathcal{Y} Y是离散的, 我们可以令
Y ˉ i = arg ⁡ min ⁡ Y ∈ Y , Y ≠ Y i E ( W , Y , X i ) , \bar{Y}^i = \arg \min_{Y \in \mathcal{Y}, Y \not= Y^i} E(W, Y, X^i), Yˉi=argYY,Y=YiminE(W,Y,Xi),
相应的连续情况下
Y ˉ i = arg ⁡ min ⁡ Y ∈ Y , ∥ Y − Y i ∥ > ϵ E ( W , Y , X i ) , \bar{Y}^i = \arg \min_{Y \in \mathcal{Y}, \|Y-Y^i\| > \epsilon} E(W, Y, X^i), Yˉi=argYY,YYi>ϵminE(W,Y,Xi),
Y ˉ \bar{Y} Yˉ是我们最不爽的点. 很自然, 我们希望损失函数将我们希望的点 Y i Y^i Yi的能量降低, 而拔高我们讨厌的 Y ˉ i \bar{Y}^i Yˉi的能量.

image-20201129095943529

损失函数

Energy Loss

L e n e r g y ( Y i , E ( W , Y , X i ) ) = E ( W , Y i , X i ) . L_{energy} (Y^i, E(W, \mathcal{Y}, X^i)) = E(W, Y^i, X^i). Lenergy(Yi,E(W,Y,Xi))=E(W,Yi,Xi).

Generalized Perceptron Loss

L p e r c e p t r o n ( Y i , E ( W , Y , X i ) ) = E ( W , Y i , X i ) − min ⁡ Y ∈ Y E ( W , Y , X i ) . L_{perceptron} (Y^i, E(W, \mathcal{Y}, X^i)) = E(W, Y^i, X^i) - \min_{Y \in \mathcal{Y}} E(W, Y, X^i). Lperceptron(Yi,E(W,Y,Xi))=E(W,Yi,Xi)YYminE(W,Y,Xi).

Generalized Margin Loss
Hinge Loss

L h i n g e ( W , Y i , X i ) = max ⁡ ( 0 , m + E ( W , Y i , X i ) − E ( W , Y ˉ i , X i ) ) . L_{hinge} (W, Y^i, X^i) = \max(0, m+E(W, Y^i, X^i) - E(W, \bar{Y}^i, X^i)). Lhinge(W,Yi,Xi)=max(0,m+E(W,Yi,Xi)E(W,Yˉi,Xi)).

Log Loss

L l o g ( W , Y i , X i ) = log ⁡ ( 1 + e E ( W , Y i , X i ) − E ( W , Y ˉ i , X i ) ) . L_{log} (W, Y^i,X^i) = \log (1+e^{E(W, Y^i, X^i)-E(W, \bar{Y}^i, X^i)}). Llog(W,Yi,Xi)=log(1+eE(W,Yi,Xi)E(W,Yˉi,Xi)).

LVQ2 Loss

L l v q 2 ( W , Y i , X i ) = min ⁡ ( 1 , max ⁡ ( 0 , E ( W , Y i , X i ) − E ( W , Y ˉ i , X i ) δ E ( W , Y ˉ i , X i ) ) ) . L_{lvq2}(W, Y^i, X^i) = \min (1, \max(0, \frac{E(W, Y^i, X^i)- E(W, \bar{Y}^i, X^i)}{\delta E(W, \bar{Y}^i, X^i)})). Llvq2(W,Yi,Xi)=min(1,max(0,δE(W,Yˉi,Xi)E(W,Yi,Xi)E(W,Yˉi,Xi))).
虽然LVQ2 Loss和上面的非margin loss一样, 似乎是没margin的, 但是作者说最后二者有一个饱和的比例 1 + δ 1+\delta 1+δ, 但是不是特别理解.

MCE Loss

L m c e ( W , Y i , X i ) = σ ( E ( W , Y i , X i ) − E ( W , Y ˉ i , X i ) ) , L_{mce} (W, Y^i, X^i) = \sigma (E(W, Y^i, X^i)-E(W, \bar{Y}^i, X^i)), Lmce(W,Yi,Xi)=σ(E(W,Yi,Xi)E(W,Yˉi,Xi)),
其中 σ \sigma σ是sigmoid.

Square-Square Loss

L s q − s q ( W , Y i , X i ) = E ( X , Y i , X i ) 2 + ( max ⁡ ( 0 , m − E ( W , Y ˉ i , X i ) ) ) 2 . L_{sq-sq} (W, Y^i, X^i) = E(X, Y^i, X^i)^2 + (\max(0, m-E(W, \bar{Y}^i, X^i)))^2. Lsqsq(W,Yi,Xi)=E(X,Yi,Xi)2+(max(0,mE(W,Yˉi,Xi)))2.

Square-Exponential

L s q − e x p ( W , Y i , X i ) = E ( W , Y i , X i ) 2 + γ e − E ( W , Y ˉ i , X i ) . L_{sq-exp} (W, Y^i, X^i) = E(W, Y^i, X^i)^2 + \gamma e^{-E(W,\bar{Y}^i, X^i)}. Lsqexp(W,Yi,Xi)=E(W,Yi,Xi)2+γeE(W,Yˉi,Xi).

Negative Log-Likelihood Loss

L n l l ( W , Y i , X i ) = E ( W , Y i , X i ) + F β ( W , Y , X i ) , L_{nll}(W, Y^i, X^i) = E(W, Y^i, X^i) + \mathcal{F}_{\beta} (W, \mathcal{Y}, X^i), Lnll(W,Yi,Xi)=E(W,Yi,Xi)+Fβ(W,Y,Xi),
其中
F β ( W , Y , X i ) = 1 β log ⁡ ( ∫ y ∈ Y exp ⁡ ( − β E ( W , y , X i ) ) ) . \mathcal{F}_{\beta}(W, \mathcal{Y}, X^i) = \frac{1}{\beta} \log (\int_{y \in \mathcal{Y}} \exp (-\beta E(W, y, X^i))). Fβ(W,Y,Xi)=β1log(yYexp(βE(W,y,Xi))).

Empirical Error Loss

L m e e ( W , Y i , X i ) = 1 − e − β E ( W , Y i , X i ) ∫ y ∈ Y e − β E ( W , y , X i ) . L_{mee} (W, Y^i, X^i) = 1 - \frac{e^{-\beta E(W, Y^i, X^i)}}{\int_{y \in \mathcal{Y}}e^{-\beta E(W, y, X^i)}}. Lmee(W,Yi,Xi)=1yYeβE(W,y,Xi)eβE(W,Yi,Xi).

好的损失应该满足的一些条件

都是充分条件, 所以不满足也有可能是满足所需要的性质的.

条件1

对于样本 ( X i , Y i ) (X^i, Y^i) (Xi,Yi), 如果预测满足
E ( W , Y i , X i ) < E ( W , Y , X i ) , ∀ Y ∈ Y   a n d   Y ≠ Y i . E(W, Y^i, X^i) < E(W, Y, X^i), \quad \forall Y \in \mathcal{Y} \: and \: Y \not = Y^i. E(W,Yi,Xi)<E(W,Y,Xi),YYandY=Yi.
则推断结果应当为 Y i Y^i Yi.

条件2

对于变量 Y Y Y以及样本 ( X i , Y i ) (X^i, Y^i) (Xi,Yi)和margin m m m, 若
E ( W , Y i , X i ) < E ( W , Y ˉ , X i ) − m , E(W, Y^i, X^i) < E(W, \bar{Y}, X^i) - m, E(W,Yi,Xi)<E(W,Yˉ,Xi)m,
则推断结果应当为 Y i Y^i Yi.

条件3

这个条件就用语言描述吧.

image-20201129104305487

即, 要求 H P 1 HP_1 HP1与可行域 R R R的交集中存在一解, 是的 ( X i , Y i ) (X^i, Y^i) (Xi,Yi)在该点处的能量比 H P 2 HP_2 HP2 R R R交集的所有解的能量都要小, 其中
H P 1 : E C + m < E I H P 2 : E C + m > E I . HP_1: E_C+m < E_I \\ HP_2: E_C + m > E_I. HP1:EC+m<EIHP2:EC+m>EI.
E C = E ( W , Y i , X i ) E_C=E(W, Y^i, X^i) EC=E(W,Yi,Xi), E I = E ( W , Y ˉ i , X i ) E_I=E(W, \bar{Y}^i, X^i) EI=E(W,Yˉi,Xi).

下图给出了满足上述三个条件的损失及其对应的 m m m.

image-20201129104644960

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值