BLIP2原理解读——大模型论文阅读笔记二

最新推荐文章于 2025-03-20 15:25:18 发布

CV-deeplearning

最新推荐文章于 2025-03-20 15:25:18 发布

阅读量7.8k

点赞数 2

分类专栏：大模型文章标签：论文阅读笔记深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Guo_Python/article/details/131300010

版权

大模型专栏收录该内容

19 篇文章

订阅专栏

一. 论文与代码

论文：https://arxiv.org/abs/2301.12597
代码：https://github.com/salesforce/LAVIS/tree/main/projects/blip2

二. 解决问题

端到端训练视觉语言模型需要大尺度模型及大规模数据，该过程成本大，本文提出方法基于现有高质量视觉模型及语言大模型进行联合训练，为减少计算量及防止遗忘，作者对预训练模型进行frozen，为了将两任务对齐，作者提出Querying Transformer (Q- Former) 预训练，如图1，其将有用视觉特征传递至LLM输出目标文本。

三. 算法架构

在这里插入图片描述
图一：BLIP-2的算法框架，我们训练了一个轻量级的Q-Former来对齐文本和语言两个模态的差距。第一阶段从冻结的图像编码中学习到图像的语言表征，第二阶段通过冻结的大语言模型从图像特征到语言生成。

四. 具体细节

表征学习阶段

左边是Q-Former的结构，用来学习图片的视觉语言表征，作者使用三个目标函数使模型学习到图片的视觉表征；右边的self-attention masking策略来控制query-text之间的交互。
语言生成阶段

作者将Q-Former与LLM相连，后去LLM的语言生成能力。如图，FC层映射输出的query embedding Z至LLM的text embedding；基于LLM Q-Former提取到的视觉表征作为soft visual prompt，由于Q-Former已经预训练用于提取对文本有用的视觉表征，减轻LLM学习视觉-文本对齐的负担。
作者实验两种LLM，decoder-based LLM以及encoder-decoder-based LLM。
对于decoder-based LLM，作者使用language modeling loss进行预训练，frozen LLM进行文本生成；
对于encoder-decoder-based LLM，使用prefix language modeling loss预训练，将text分为两部分，text前半部分与视觉表征concat输入LLM编码器，后半部分作为LLM解码器的生成目标。

五. 结论

BLIP-2是一种通用且计算高效的视觉语言预训练方案，使用frozen 预训练图像编码器及LLM，在多个视觉语言任务达到SOTA，也证明了其在零样本instructed image-to-text生成能力。

推荐：BLIP2-图像文本预训练论文解读

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。