MiniGPT-4原理解读——大模型论文阅读笔记三

CV-deeplearning

已于 2023-06-20 10:18:42 修改

阅读量1.3k

点赞数

分类专栏：大模型文章标签：论文阅读笔记

于 2023-06-20 09:43:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Guo_Python/article/details/131300211

版权

大模型专栏收录该内容

18 篇文章

订阅专栏

论文：https://arxiv.org/pdf/2304.10592v1.pdf
代码：https://github.com/vision-cair/minigpt-4

一. 作者动机

GPT-4展示了非凡的多模态能力，比如直接从手写文本生成网站，以及识别图像中的幽默元素。这些特性在以前的视觉语言模型中很少见。我们认为GPT-4具有先进的多模态生成能力的主要原因在于利用了更先进的大型语言模型（LLM）。然而，大语言模型和视觉模型训练起来比较消耗资源，作者提出了MiniGPT-4，它将一个冻结的视觉编码器与一个冻结的LLM（Vicuna）对齐，仅训练一个投影层，达到类似GPT-4的效果。

二. 算法架构

在这里插入图片描述
图1 大型语言模型的结构示意图：MiniGPT-4由一个具有预训练ViT和Q-Former的视觉编码器、一个线性投影层和一个高级Vicuna大型语言模型组成。MiniGPT-4只需要训练线性投影层，将视觉特征与Vicuna对齐。

三. 训练细节

预训练阶段
在初始的预训练阶段，模型旨在从大量对齐的图像文本对中获取视觉语言知识。我们将从注入的投影层输出的结果视为LLM的软提示，促使其生成相应的真实文本。
微调阶段
使用筛选出的高质量图像文本对对预训练模型进行微调。在微调过程中，我们使用以下模板中预定义的提示语：

在这个提示语中，表示从我们预定义的指令集中随机抽取的指令，包括“详细描述这张图片”或“能否为我描述一下这张图片的内容”等不同形式的指令。需要注意的是，我们不会针对这个特定的文本-图像提示计算回归损失。

四. 论文点评

训练大模型很耗资源，而作者整个训练过程需要约10小时，利用4个A100（80GB）GPU完成。这样给普通人或者研究者提供了方向，降低了训练门槛。

阅读推荐：https://zhuanlan.zhihu.com/p/626206324

CV-deeplearning

博客等级

码龄7年

187
原创

704
点赞

2747
收藏

751
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: BLIP2原理解读——大模型论文阅读笔记二

下一篇：: Visual ChatGPT原理解读——大模型论文阅读笔记四

最新评论

Swift实战（微调多模态模型Qwen2.5 vl 7B）
academicand: 作者你好，请问微调过程使用的损失函数是什么
StepX-Edit：一个通用图像编辑框架——论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Swift实战（微调多模态模型Qwen2.5 vl 7B）
CV-deeplearning: 这阶段的微调会冻结VIT，只训练llm，可参考我的博客理论部分：https://blog.csdn.net/Guo_Python/article/details/148007642?spm=1001.2014.3001.5501
Swift实战（微调多模态模型Qwen2.5 vl 7B）
academicand: 作者你好，你在脚本中把视觉编码器冻结了，那模型训练的时候只会对LLM的linear层插入LoRA模块吗？多模态对齐模块会插入LoRA模块吗
智能交通——车辆属性识别
CV-deeplearning: https://blog.csdn.net/Guo_Python/article/details/113735260?ops_request_misc=%257B%2522request%255Fid%2522%253A%252233f5c9ccdaf194f551582b1311559cf6%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=33f5c9ccdaf194f551582b1311559cf6&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~rank_v31_ecpm-1-113735260-null-null.nonecase&utm_term=%E8%A1%8C%E4%BA%BA&spm=1018.2226.3001.4450 参考我的这篇博客

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。