多模态模型基础

谁怕平生太急

已于 2024-07-24 13:59:50 修改

阅读量1.9k

点赞数 25

分类专栏：大模型文章标签：论文阅读大模型 qwen qwenvl

于 2024-06-04 21:21:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jinselizhi/article/details/139452756

版权

大模型专栏收录该内容

28 篇文章

订阅专栏

资料

ViT：https://zhuanlan.zhihu.com/p/657666107
ViT的位置编码：https://blog.csdn.net/qq_44166630/article/details/127429697
Clip：https://zhuanlan.zhihu.com/p/660476765

QwenVL：https://blog.csdn.net/qq_35812205/article/details/136586866
QwenVL发布：https://qwenlm.github.io/zh/blog/qwen-vl/

QwenVL

模型结构和参数大小

（1）LLM：Qwen-7B

（2）Vision Encoder：ViT架构，初始化参数是 Openclip’s ViT-bigG。

在训练和推理过程中，输入的图像都被调整到特定的分辨率。

视觉编码器通过将图像分割成步长为14 的块来处理图像，从而生成一组图像特征。

「 224 / 14 = 16 16 x 16 = 256」

（3）VL Adapter：Position-aware Vision-Language Adapter 位置感知视觉-语言适配器

主要作用是压缩图像特征、减少由长图像特征序列引起的效率问题。

这个Adapter 包括一个随机初始化的单层交叉注意力模块 cross-attention

这个模块的 query 是一组可训练的向量，key 是 Vision Encoder 输出的图像特征

「这里的query 经过不断地训练，在图文的对齐上起到了重要的作用」

这种机制将视觉特征序列压缩到 256 个固定长度。「查询向量的数量太少可能会导致部分视觉信息的丢失，而查询量过多则可能会增加收敛难度和计算成本」

整合 2D绝对位置编码到 cross attention 中 query 和 key，以减轻图像压缩时的损失

随后，将256长度的压缩图像特征输入给 LLM

在这里插入图片描述

Qwen-VL训练的3个阶段

在这里插入图片描述

（1）预训练阶段

用大规模、弱标注、网络爬虫抓取的 14亿图像文本对 数据集，其中 22.7% 中文数据

冻结 LLM的参数，仅对 Vision Encoder 和 VL Adapter 进行优化。

输入的图像大小调整为 224 x 224

训练目标是文本 token 的交叉熵

最大学习率 2e-4

batchsize为 30720个图像文本对

持续 50000步的训练

消耗约 15亿图像文本对的样本

这个阶段的目标是对齐 Vision Encoder 和LLM的特征

（2）多任务训练阶段

用高质量、细粒度的 VL 标注数据，采用更大分辨率和交错的图像文本对同时进行 7个任务的训练。

其中简单地通过将同一任务的数据打包成长度为 2048 的序列来构造交错的图像-文本数据（不同训练集的数据）

并且将 Vision Encoder的输入分辨率从 224 x 224 提升到 448 x 448，减少图像下采样造成的损失

训练目标和预训练阶段相同，但不冻结任一模块

这个阶段的目标是强化模型的多模态能力

（3）有监督微调阶段

通过指令微调对Qwen-VL预训练模型进行了微调，以增强其遵循指令和多轮对话能力，从而得到了交互式的Qwen-VL-Chat模型

通过优化这个阶段的训练数据，使得模型具备定位和多图像理解能力

同时，通过混合纯文本数据，使得模型具有通用对话能力

这部分指令微调数据总量是 350k

此阶段冻结 Vision Encoder 模块，优化 LLM 和 VL Adapter 模块参数

训练数据示例：

训练目标：回答和特殊标记（如下图蓝色部分）为了确保预测和训练之间的分布一致性
在这里插入图片描述

谁怕平生太急

博客等级

码龄10年

180
原创

735
点赞

866
收藏

508
粉丝

关注

私信

热门文章

分类专栏

Agent 14篇
读文章
百面机器学习的读书笔记 5篇
生活 13篇
阅读 52篇
大模型 28篇
算法基础 10篇
mobile_ui_agent 9篇
读书笔记 5篇
中医 5篇
刷题 3篇
大神 2篇
RAG 1篇
架构 1篇
数据 1篇
开发 27篇

展开全部收起

最新评论

论文阅读：华为的LiMAC
Dev2019: 过这么久了也没见开源
华为诺亚方舟新作：GUI Agent综述
qq_32253137: 楼主，做GUI Agent比较好的，轻量级的，基座多模态模型或者VL模型，能推荐一些么
华为诺亚方舟新作：GUI Agent综述
谁怕平生太急: 我提一个评估角度：如果任务模型训练得非常好，那可以通过人得行为模式和模型的路径匹配度来评估了
华为诺亚方舟新作：GUI Agent综述
LongerTaki: 这个大模型如何评估人的行为模式？
论文阅读：三星-TinyClick
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。