Qwen2.5-1M：支持百万Tokens上下文的开源模型新里程碑

engchina

于 2025-02-23 08:50:42 发布

阅读量791

点赞数 29

分类专栏： LINUX 文章标签： Qwen2.5-1M Qwen2.5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/engchina/article/details/145804845

版权

Qwen2.5-1M：支持百万Tokens上下文的开源模型新里程碑

引言

两个月前，Qwen团队推出了支持百万Tokens上下文长度的Qwen2.5-Turbo。今天，Qwen2.5-1M系列模型正式开源！这不仅标志着Qwen首次将开源模型的上下文扩展到百万级别，还带来了高效的推理框架和技术洞察。以下是本次发布的亮点：

开源模型：发布了Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M两款模型，上下文长度高达100万Tokens。
推理框架：基于vLLM的全新开源推理框架，集成稀疏注意力机制，推理速度提升3-7倍。
技术报告：详细披露模型训练、推理设计及实验结果。

相关资源：

模型链接：ModelScope Qwen2.5-1M
技术报告：Qwen2.5-1M Technical Report
在线体验：Qwen2.5-1M Demo

模型性能

长上下文任务

Qwen2.5-1M系列模型在长上下文任务中表现出色。以“Passkey Retrieval”（大海捞针）任务为例，该任务要求模型从100万Tokens的文档中检索隐藏信息。测试结果显示，Qwen2.5-14B-Instruct-1M完美完成任务，而7B模型仅出现少量错误。

在更复杂的长上下文理解任务中（如RULER、LV-Eval和LongbenchChat测试集），Qwen2.5-1M展现了以下优势：

超越128K版本：在超过64K长度的任务中，性能显著优于之前的128K模型。
媲美闭源模型：14B模型不仅击败Qwen2.5-Turbo，还在多个数据集上超越GPT-4o-mini，成为长上下文任务的开源标杆。

短序列任务

短文本任务的表现同样关键。对比了Qwen2.5-1M系列、128K版本及GPT-4o-mini在学术基准上的性能，结果表明：

稳定性：7B和14B模型在短序列任务中的表现与其128K版本相当，未因长上下文能力而牺牲基础性能。
竞争力：14B模型和Turbo版本在短文本任务上接近GPT-4o-mini，且上下文长度是后者的8倍。

关键技术

长上下文训练

训练支持百万Tokens的模型需要大量算力。Qwen2.5-1M采用分阶段扩展策略：

预训练：从4K逐步扩展到256K上下文长度，同时调整RoPE基础频率（从10,000提升至10,000,000）。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。