今天Qwen2.5技术报告发布啦!

397c19ff25d7bc9ac4ca16faa663012a.png

今天Qwen团队发布"Qwen2.5 Technical Report" 的技术报告,下面对该报告做了简单的概括,希望让大家有个快速了解。

LLM所有细分方向群+ACL25/ICML25/NAACL25投稿群->LLM所有细分领域群、投稿群从这里进入!

链接:https://arxiv.org/pdf/2412.15115

摘要

0f2168eb05d38cd400efab094d65526c.pngQwen2.5 是一系列大型语言模型(LLMs),旨在满足多样化的需求。与之前的版本相比,Qwen 2.5 在预训练后训练阶段都得到了显著改进。预训练数据集从之前的7万亿个token扩展到18万亿个token,这为模型提供了坚实的常识、专家知识和推理能力基础。后训练阶段包括超过100万个样本的复杂监督微调和多阶段强化学习,显著提升了模型的人类偏好对齐、长文本生成、结构数据分析和指令遵循能力。

Qwen2.5 系列特点

  • 丰富的配置:提供从0.5B到72B参数的不同大小的基础模型和指令调整模型,以及量化版本。

  • 性能表现:在多个基准测试中表现出色,特别是在语言理解、推理、数学、编码和人类偏好对齐等方面。

  • 模型规模:Qwen2.5-72B-Instruct 在性能上与比它大5倍的 Llama-3-405B-Instruct 竞争。

架构与分词器

186c29597472a11b2038a305136cf329.pngQwen2.5 系列包括基于 Transformer 的密集模型和用于 API 服务的 MoE(专家混合)模型。模型架构包括分组查询注意力、SwiGLU 激活函数、旋转位置嵌入等。分词器使用字节级别的字节对编码(BBPE),词汇量为151,643个常规token

预训练

预训练数据质量得到显著提升,包括更好的数据过滤、数学和代码数据的整合、合成数据的生成和数据混合。预训练数据从7万亿token增加到18万亿token

后训练

Qwen 2.5 在后训练设计上引入了两个重要进展:扩展的监督微调数据覆盖和两阶段强化学习(离线和在线)。

评估

Qwen2.5 系列模型在多个基准测试中进行了评估,包括自然语言理解、编程、数学和多语言能力。Qwen2.5-72B 和 Qwen2.5-Plus 在多个任务中表现出色,与领先的开放权重模型竞争。

base model

943b15161e45cdf0e3d1a1580ecf626e.pnga7010bcf09b41bdb03a7c21f9e1a10c9.png66465068e8563af2941aa65a42e7d86d.png0ead2d9ff605fdc148f7f7c7e3fe9e0c.png

instruct model

82d0d4953e97e2e9c09f02d3993baf06.png36836729918f630f35870c0caf09aef2.png3a080aefc1483b5843778627374983c2.pnga3d2c59ebff03c1c70e04f756c31c4ff.png

on our in-house Chinese automatic evaluation

6396a875ed25e577c19fce6f5735a709.png

长文本

753d2870054cc809807e80df9004b78d.png572f97eb7733e391dd4f064c56a5f965.png14bd1ac7397b9bf9d604d42fa37b7dfa.png0d0d7d83a7f114fbabd3fde1c80fa2df.png

结论

Qwen2.5 代表了大型语言模型的重大进步,提供了多种配置,并且在多个基准测试中表现出色。Qwen2.5 的强大性能、灵活架构和广泛可用性使其成为学术研究和工业应用的宝贵资源。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

bc4c7a33715ed9449b4463814c1b48ba.png

id:DLNLPer,记得备注呦

### Qwen2.5 技术详情 #### 总体概述 Qwen2.5 是阿里巴巴通义千问系列中的一个重要版本,因其卓越的性能和广泛的应用场景而受到广泛关注。这一模型在 2024 年云栖大会上正式发布,标志着其进入了更广阔的开发者和技术研究者视野[^1]。 #### 多模态能力增强 Qwen2.5-VL 是 Qwen2.5 系列的一个重要分支,专注于多模态任务的表现提升。通过引入动态分辨率处理、绝对时间编码以及窗口注意力机制等创新技术Qwen2.5-VL 显著增强了其在多模态理解和交互方面的能力。这些改进不仅提高了计算效率,还在多个基准测试中展现了领先的性能表现[^3]。 #### 编码与指令优化 针对编程领域的需求,Qwen2.5-Coder-Instruct 进一步扩展了通用大模型的功能边界。评估结果显示,该变种模型成功继承并强化了 Qwen2.5 原有的强大通用能力,在解决复杂编程问题时表现出色[^2]。 #### 架构设计与参数规模 虽然具体参数量未被完全公开披露,但从已知信息可以推测,Qwen2.5 继承了前代产品的大规模参数特性,并在此基础上进行了针对性调整以适应不同应用场景需求。这种灵活的设计使得 Qwen2.5 不仅能够在自然语言处理任务上取得优异成绩,还能有效应对跨模态融合挑战。 以下是部分关键技术亮点总结: - **动态分辨率处理**:允许根据不同输入内容自动调节图像或其他媒体形式的空间维度大小,从而减少冗余运算开销。 - **绝对时间编码**:相比传统相对位置嵌入方式更加稳定可靠,尤其适用于长时间序列建模场合。 - **窗口注意力机制**:局部化操作降低了全局依赖带来的资源消耗,同时保留必要的上下文关联性。 ```python # 示例代码展示如何加载预训练好的 Qwen2.5 模型 (假设基于 HuggingFace Transformers 库实现) from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen2.5") model = AutoModelForCausalLM.from_pretrained("qwen/Qwen2.5") input_text = "请介绍一下 Qwen2.5 的主要功能" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值