最近在看多模态内容,记录一下文图模型中常用的损失函数。最先提出ITC loss的是论文ALBEF,下面是文章对该Loss的定义
假设有输入图片 I 经过image encoder之后变成{ v c l s , v 1 , … , v N v_{cls}, v_1, …, v_N vcls,v1,…,vN},输入文本 T 经过 text encoder 后变成{ w c l s , w 1 , … , w N w_{cls}, w_1,…, w_N wcls,w1,…,wN}
ITC Loss 的全称是 Image-Text Contrastive Loss ,为了在融合之前学习更好的unimodal表示,它学习 s = g v ( v c l s