Qwen-VL 技术报告总结

本文介绍了Qwen-VL的开源工作,包括权重Qwen-VL和Qwen-VL-Chat的区别。训练过程分为三个阶段,初始阶段以224X224分辨率专注视觉理解,第二阶段提升到448X448并加入多任务数据,第三阶段通过ChatML数据增强模型的指令跟随能力。各阶段训练目标、数据源和模型调整策略均有详细阐述。
摘要由CSDN通过智能技术生成

感谢如此优秀的开源工作,仓库链接 Qwen-VL

权重分为 Qwen-VL && Qwen-VL-Chat,区别文档稍后介绍

训练过程

d3ec8a0855e343919e845db5d53e65c4.png

  • 在第一阶段中主要使用224X224分辨率训练,训练数据主要来源是公开数据集,经过清洗,数据总量大约是1.4B(中英混合)。训练目标是视觉语言和文本语言对齐。loss函数是交叉熵;训练过程:给定一个输入(例如图像or文本),预测整个词表中作为next token的概率(The language model, given an input (such as an image and some initial text), predicts the probability of each token in the vocabulary being the next token in the sequence.),实际标签转换为one-hot, 然后使用交叉熵损失函数计算两个的差(The actual distribution is represented by the true next token in the training data. In practice, this is often converted into a one-hot encoded vector, where the actual next token has a probability of 1, and
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值