Qwen-VL 技术报告总结

Liwx1014

已于 2024-10-31 19:00:09 修改

阅读量2.2k

点赞数 19

分类专栏：多模态大模型文章标签：人工智能

于 2024-02-02 17:18:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Colin_xuan/article/details/135996226

版权

多模态大模型专栏收录该内容

4 篇文章

订阅专栏

本文介绍了Qwen-VL的开源工作，包括权重Qwen-VL和Qwen-VL-Chat的区别。训练过程分为三个阶段，初始阶段以224X224分辨率专注视觉理解，第二阶段提升到448X448并加入多任务数据，第三阶段通过ChatML数据增强模型的指令跟随能力。各阶段训练目标、数据源和模型调整策略均有详细阐述。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

感谢如此优秀的开源工作,仓库链接 Qwen-VL

权重分为 Qwen-VL && Qwen-VL-Chat，区别文档稍后介绍

训练过程

在第一阶段中主要使用224X224分辨率训练，训练数据主要来源是公开数据集，经过清洗，数据总量大约是1.4B（中英混合）。训练目标是视觉语言和文本语言对齐。loss函数是交叉熵；训练过程：给定一个输入（例如图像or文本），预测整个词表中作为next token的概率（The language model, given an input (such as an image and some initial text), predicts the probability of each token in the vocabulary being the next token in the sequence.），实际标签转换为one-hot, 然后使用交叉熵损失函数计算两个的差（The actual distribution is represented by the true next token in the training data. In practice, this is often converted into a one-hot encoded vector, where the actual next token has a probability of 1, and all others have a probability of 0。The cross-entropy loss calculates the difference between these two distributions. It penalizes predictions that are confident but wrong and rewards predictions that are correct and confident.），在训练过程中，最小化loss
在第二计算多任务预训练中，模型权重全部放开训练，图像分辨率提高到了448X448,引入七种不同任务的数据集，数据格式如图：这一阶段的训练目标和第一阶段一样。该阶段训练的权重在这里：Qwen-VL
第三阶段主要是增强模型的指令跟随能力，所以冻结了图像部分；数据量：350K;混合数据训练；专门构建了数据模板：ChatML，这一阶段训练的权重为 Qwen-VL-Chat

训练过程差异

第一阶段只训练视觉编码器和VL 适配器，而固定语言模型的做法，主要目的为了先让模型学会从图中提取信息，好处是，专注视觉理解，保持语言的理解能力，计算效率也高；

第二阶段放开模型训练，目的是综合优化视觉-语言理解能力，使其在多模态任务表现更佳，融合多模态信息

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。