千亿大模型来了!通义千问110B模型开源!

近期,在开源社区中,一系列具有千亿参数规模的大模型陆续出现,这些模型在各类评测中取得了卓越的成绩。通义千问团队宣布开源了一个1100亿参数的Qwen1.5系列首个千亿参数模型——Qwen1.5-110B。该模型在基础能力评估中与Meta-Llama3-70B相媲美,并在Chat评估中表现出色,包括MT-Bench和AlpacaEval 2.0。

Qwen1.5-110B与其他Qwen1.5模型类似,采用了相同的Transformer解码器架构。它引入了分组查询注意力(GQA),使得模型在推理时更加高效。此外,该模型支持32K tokens的上下文长度,并具备多语言特性,支持英语、中文、法语、西班牙语、德语、俄语、日语、韩语、越南语、阿拉伯语等多种语言。

下面是关于基础语言模型效果的评估,并与最近的SOTA语言模型Meta-Llama3-70B以及Mixtral-8x22B进行了比较。

上述结果显示,千问110B模型在基础能力方面至少与Llama-3-70B模型相媲美。在这个模型中,没有对预训练的方法进行大幅改变,因此110B模型和72B相比的性能提升主要来自于增加模型规模。

在MT-Bench和AlpacaEval 2.0上进行了Chat评估,结果如下:

图片

与之前发布的Qwen1.5-72B模型相比,在两个Chat模型的基准评估中,110B表现显著更好。评估结果的持续改善表明,即使在没有大幅改变后训练方法的情况下,更强大、更大规模的基础语言模型也可以带来更好的Chat模型

Qwen1.5-110B是Qwen1.5系列中规模最大的模型,也是该系列中首个拥有超过1000亿参数的模型。它在与最近发布的SOTA模型Llama-3-70B的性能上表现出色,并且明显优于72B模型。这告诉我们,在模型大小扩展方面仍有很大的提升空间。虽然Llama-3的发布表明预训练数据规模具有重要意义,但我们相信通过在未来的发布中同时扩展数据和模型大小,我们可以同时获得两者的优势。敬请期待Qwen2!

实战:

魔搭社区通义千问110B模型推理、微调最佳实践-CSDN博客

<think>好的,我现在需要回答用户关于通义VL的题。首先,用户提到了Qwen2-VL和之前的Qwen-VL,我需要确认这两个版本的关系以及各自的更新内容。根据提供的引用[^1],Qwen2-VL延续了上一代的结构,采用了600M的ViT,支持图像和视频输入,并且提到了多模态旋转位置编码(M-ROPE)。而引用[^2]提到通义开源Qwen-VL等模型,可能用户需要区分这两个版本的信息。 接下来,我需要整理通义VL的主要信息,包括模型结构、技术特点、应用场景等。需要注意引用中的关键点,比如ViT加Qwen2的串联结构、M-ROPE技术,以及支持的输入类型。同时,引用[^2]提到不同参数规模的模型,但这里可能主要关注视觉语言模型的相关参数。 用户的题可能希望了解VL版本的具体细节,比如模型架构、训练数据、性能表现等,但现有引用中没有详细的数据,可能需要基于已有信息进行概括。此外,需要生成相关题,这些题应围绕技术细节、优化方法、应用场景等方面展开。 需要注意按照系统指令,正确使用LaTeX格式,但当前题不涉及数学公式,可能不需要插入。回答结构要清晰,分点说明,并自然添加引用标识。最后,确保回答使用中文,并符合用户可见层的格式要求。</think>### 通义 VL 版本介绍 通义视觉语言模型Qwen-VL)是阿里推出的多模态大模型,支持图像、视频与文本的联合理解。以下是其核心特性和技术细节: #### 1. **模型架构** - **ViT + Qwen2 串联结构**:Qwen2-VL 延续上一代设计,视觉部分采用 600M 参数的 Vision Transformer(ViT),语言模型基于 Qwen2 架构。 - **多模态输入支持**:支持图像(分辨率最高 448×448)和视频的统一输入,通过跨模态对齐技术实现视觉与语言的深度融合。 #### 2. **关键技术** - **多模态旋转位置编码(M-ROPE)**:优化位置编码机制,增强模型对视觉元素空间关系与文本序列的长程依赖建模能力。 - **混合专家模型(MoE)扩展**:结合开源的中等尺寸 32B 模型与 MoE 架构,提升模型处理复杂多模态任务的效率[^2]。 #### 3. **应用场景** - **视觉答(VQA)**:如根据图像内容生成描述或回答相关题。 - **多模态内容生成**:支持图文混合内容的创作与编辑。 - **工业检测与教育**:应用于自动化视觉质检、教学辅助等垂直领域。 #### 4. **模型开源与生态** 通义提供多样化的开源模型,包括: - **小尺寸模型**:如 7B、14B,适合轻量级部署; - **大尺寸模型**:如 110B,适用于高性能计算场景; - **多模态扩展**:除 Qwen-VL 外,还开源音频模型 Qwen-Audio、代码模型 CodeQwen1.5-7B 等[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IT大头

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值