Qwen2.5-1M:支持百万Tokens上下文的开源模型新里程碑
引言
两个月前,Qwen团队推出了支持百万Tokens上下文长度的Qwen2.5-Turbo。今天,Qwen2.5-1M系列模型正式开源!这不仅标志着Qwen首次将开源模型的上下文扩展到百万级别,还带来了高效的推理框架和技术洞察。以下是本次发布的亮点:
- 开源模型:发布了Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M两款模型,上下文长度高达100万Tokens。
- 推理框架:基于vLLM的全新开源推理框架,集成稀疏注意力机制,推理速度提升3-7倍。
- 技术报告:详细披露模型训练、推理设计及实验结果。
相关资源:
- 模型链接:ModelScope Qwen2.5-1M
- 技术报告:Qwen2.5-1M Technical Report
- 在线体验:Qwen2.5-1M Demo
模型性能
长上下文任务
Qwen2.5-1M系列模型在长上下文任务中表现出色。以“Passkey Retrieval”(大海捞针)任务为例,该任务要求模型从100万Tokens的文档中检索隐藏信息。测试结果显示,Qwen2.5-14B-Instruct-1M完美完成任务,而7B模型仅出现少量错误。
在更复杂的长上下文理解任务中(如RULER、LV-Eval和LongbenchChat测试集),Qwen2.5-1M展现了以下优势:
- 超越128K版本:在超过64K长度的任务中,性能显著优于之前的128K模型。
- 媲美闭源模型:14B模型不仅击败Qwen2.5-Turbo,还在多个数据集上超越GPT-4o-mini,成为长上下文任务的开源标杆。
短序列任务
短文本任务的表现同样关键。对比了Qwen2.5-1M系列、128K版本及GPT-4o-mini在学术基准上的性能,结果表明:
- 稳定性:7B和14B模型在短序列任务中的表现与其128K版本相当,未因长上下文能力而牺牲基础性能。
- 竞争力:14B模型和Turbo版本在短文本任务上接近GPT-4o-mini,且上下文长度是后者的8倍。
关键技术
长上下文训练
训练支持百万Tokens的模型需要大量算力。Qwen2.5-1M采用分阶段扩展策略:
- 预训练:从4K逐步扩展到256K上下文长度,同时调整RoPE基础频率(从10,000提升至10,000,000)。