多模态论文笔记——CLIP

好评笔记

已于 2025-02-21 10:35:45 修改

阅读量1.4k

点赞数 34

分类专栏：多模态论文笔记文章标签： AIGC 论文阅读 transformer BLIP CLIP 深度学习机器学习

于 2025-01-12 10:45:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haopinglianlian/article/details/145089638

版权

多模态论文笔记专栏收录该内容

16 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍这几年AIGC火爆的隐藏功臣，多模态模型：CLIP。

在这里插入图片描述

文章目录

CLIP（Contrastive Language-Image Pre-training）

1. CLIP 的核心思想

2. CLIP 的模型架构

2.1 图像编码器

2.2 文本编码器

2.3 对比学习机制

2.4 对比损失（Contrastive Loss）

InfoNCE

图像编码器损失函数

文本编码器损失函数

总损失函数

2.5 共享嵌入空间

3. CLIP 的训练方式

4. CLIP 的推理过程

4.1 图像分类

4.2 跨模态检索

5. CLIP 的优势

6. CLIP 的应用场景

6.1 零样本学习

6.2 跨模态检索

6.3 多模态理解任务

7. CLIP 的局限性

CLIP（Contrastive Language-Image Pre-training）

CLIP 是由 OpenAI 提出的一个用于多模态学习的模型，通过对比学习（contrastive learning）进行图像-文本联合学习的创新模型。CLIP 训练图像和文本的联合表示。

论文：Learning Transferable Visual Models From Natural Language Supervision

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。