论文速读|SigLIP：Sigmoid Loss for Language Image Pre-Training.ICCV23

Space65536

于 2025-01-24 21:48:29 发布

阅读量975

点赞数 21

分类专栏：论文速读文章标签：视觉语言预训练

本文链接：https://blog.csdn.net/Romaga/article/details/145346938

版权

论文地址：https://arxiv.org/abs/2303.15343v4
代码地址：https://github.com/google-research/big_vision
bib引用：

@misc{
   zhai2023sigmoidlosslanguageimage,
      title={
   Sigmoid Loss for Language Image Pre-Training}, 
      author={
   Xiaohua Zhai and Basil Mustafa and Alexander Kolesnikov and Lucas Beyer},
      year={
   2023},
      eprint={
   2303.15343},
      archivePrefix={
   arXiv},
      primaryClass={
   cs.CV},
      url={
   https://arxiv.org/abs/2303.15343}, 
}

InShort

提出用于语言 - 图像预训练的Sigmoid损失函数（SigLIP），该函数相比传统Softmax损失函数，在内存效率、训练效率和小批量训练性能上具有优势。研究发现32k的批量大小在对比学习中接近最优，为语言 - 图像预训练研究提供了新方向。

研究背景：基于网络图像 - 文本对的对比预训练成为获取通用计算机视觉骨干网络的常用方法，标准做法是使用基于softmax的对比损失。本文提出用sigmoid损失替代，其计算更简单、内存效率更高，还能解耦批量大小与任务定义。
相关工作
- 对比学习中的sigmoid损失：此前有工作在无监督降维任务中提出类似sigmoid损失，但在对比图像 - 文本学习中，多数工作依赖基于softmax的InfoNCE损失。在监督分类中，sigmoid损失比softmax损失更有效、更稳健。
- 对比语言 - 图像预训练：CLIP和ALIGN应用softmax对比学习，使对比语言 - 图像预训练受到关注，后续研究将其应用于多种任务。此外，还有生成式语言 - 图像预训练等多种方法。
- 高效语言 - 图像预训练：LiT、FLIP等尝试提高预训练效率，但各有局限，如LiT需预训练骨干网络，FLIP牺牲质量。BASIC和LAION虽扩大批量大小，但也存在不足。
方法
- Softmax损失：通过对图像和文本嵌入进行归一化，最小化匹配对和不匹配对之间的差异，公式为

最低0.47元/天解锁文章