参考:
https://github.com/openai/CLIP
简单理解两者区别
CLIP:batch内的图文对做多分类softmax;比如下图第一行表示第一个文本与batch内哪个图片匹配(多分类);除了行还计算列,比如第一列表示第一个图片与batch内哪个文本匹配
SigLIP:batch内的图文对做二分类sigmod;比如下图第一行表示 第一个文本分别与batch内每个图片做二分类

计算损失-代码实现
CLIP

SigLIP

2*np.eye(n) - np.ones(n) 构建了label的矩阵,-1或者1的二分类;例如下列n=3
