多模态论文笔记——BLIP

好评笔记

已于 2025-01-20 23:10:54 修改

阅读量2.1k

点赞数 53

分类专栏：多模态论文笔记文章标签：论文阅读 transformer AIGC 深度学习人工智能 BLIP CLIP

于 2025-01-09 09:14:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haopinglianlian/article/details/145022728

版权

多模态论文笔记专栏收录该内容

16 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍这几年AIGC火爆的隐藏功臣，多模态模型：BLIP。

在这里插入图片描述

文章目录

BLIP（Bootstrapping Language-Image Pre-training）

1. BLIP 的核心思想

2. BLIP 的模型架构和损失函数

视觉编码器Image Encoder(ViT)——提取图片特征

文本编码器Text Encoder(BERT)——提取文本特征

对比学习目标函数ITC

视觉文本编码器Image-grounded Text Encoder(变种 BERT)——BERT中插入交叉注意层，从而针对图片特征和文本特征做二分类

图文匹配目标函数ITM

视觉文本解码器Image-grounded Text Decoder(变种 BERT)——根据图片特征和文本特征做文本生成

语言模型目标函数LM

总结

3. BLIP 的多任务学习框架

3.1 对比学习任务

3.2 图文匹配任务

3.3 图像到文本生成任务

3.4 广义的文本到图像重构任务

4. BLIP 的训练方式

4.1 输入数据质量处理

4.2 自引导学习（Bootstrapping Learning）

4.3 多任务联合训练

5. BLIP 的应用场景

5.1 图像描述生成

5.2 跨模态检索

5.3 零样本学习

6. BLIP 的优势

6.1 多任务学习

6.2 自引导学习机制

6.3 强大的生成能力

7. BLIP 的局限性

7.1 计算资源需求

7.2 数据依赖

7.3 复杂的场景生成文本质量不精确

BLIP（Bootstrapping Language-Image Pre-training）

BLIP 是旨在改进图像-文本联合学习的效率多模态模型，特别是通过生成任务和对比学习结合的方式，在低监督甚至无监督情况下提升模型性能。BLIP 的创新点在于它通过多任务预训练和自引导学习（bootstrapping）机制，能够以更少的数据达到更好的性能表现。

BLIP 主要用于处理图像与文本的多模态任务，例如图像描述生成、文本到图像的检索、

了解本专栏

超级会员免费看

博客等级

码龄181天

187
原创

4903
点赞

3959
收藏

8129
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

多模态论文笔记——NaViT
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
多模态论文笔记——TECO
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
多模态论文笔记——Coca
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
深度学习笔记——激活函数
青云交: 深度学习笔记——激活函数优质好文
SD模型微调之LoRA
qq_57739451: 请问我的模型是在sd基础上微调的controlnet，我想用controlnet微调后的模型进行lora微调，怎么进行呢

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。