学习过程如上 学习时,图片与文本对应(句子),共有n个句子与n个文本,进行对比学习 测试时,将标签句子化,再将其放入encoder中操作。最后找出特征最相似的。 特点:泛化能力强,zeroshot也很好