【VLM】SigLIp: Sigmoid Loss for Language Image Pre-Training

PaperLink: https://arxiv.org/pdf/2303.15343
code: https://github.com/mlfoundations/open_clip/blob/main/src/open_clip/loss.py
参考: https://zhuanlan.zhihu.com/p/709572492

概要

CLIP面临的挑战
1.需要较大的batch,即需要大量的GPU;
2.图像和文本的特征需要gather所有GPU上的,需考虑GPU之前的大量通信
提出SigLip(使用sigmoid计算loss,替换之前的softmax函数),减少clip对batch大小的要求。

技术细节

  • ClipLoss
    1)非对称loss,由文本–图像的softmax+图像到文本的softmax两项组成,
    2)以image–>text softmax计算为例,分子中的每个正样本对(xi, yi),都会被分母中的所有负样本(xi,yj)对进行全局归一化。每个GPU需要维护一个N*N的成对相似性矩阵(导致二次复杂)
    t为温度超参,控制softmax输出的锐度/平滑度
    softmax:
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值