Qwen2.5-1M:支持百万Tokens上下文的开源模型新里程碑

引言

两个月前,Qwen团队推出了支持百万Tokens上下文长度的Qwen2.5-Turbo。今天,Qwen2.5-1M系列模型正式开源!这不仅标志着Qwen首次将开源模型的上下文扩展到百万级别,还带来了高效的推理框架和技术洞察。以下是本次发布的亮点:

  • 开源模型:发布了Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M两款模型,上下文长度高达100万Tokens。
  • 推理框架:基于vLLM的全新开源推理框架,集成稀疏注意力机制,推理速度提升3-7倍。
  • 技术报告:详细披露模型训练、推理设计及实验结果。

相关资源:

模型性能

长上下文任务

Qwen2.5-1M系列模型在长上下文任务中表现出色。以“Passkey Retrieval”(大海捞针)任务为例,该任务要求模型从100万Tokens的文档中检索隐藏信息。测试结果显示,Qwen2.5-14B-Instruct-1M完美完成任务,而7B模型仅出现少量错误。

在更复杂的长上下文理解任务中(如RULER、LV-Eval和LongbenchChat测试集),Qwen2.5-1M展现了以下优势:

  • 超越128K版本:在超过64K长度的任务中,性能显著优于之前的128K模型。
  • 媲美闭源模型:14B模型不仅击败Qwen2.5-Turbo,还在多个数据集上超越GPT-4o-mini,成为长上下文任务的开源标杆。

短序列任务

短文本任务的表现同样关键。对比了Qwen2.5-1M系列、128K版本及GPT-4o-mini在学术基准上的性能,结果表明:

  • 稳定性:7B和14B模型在短序列任务中的表现与其128K版本相当,未因长上下文能力而牺牲基础性能。
  • 竞争力:14B模型和Turbo版本在短文本任务上接近GPT-4o-mini,且上下文长度是后者的8倍。

关键技术

长上下文训练

训练支持百万Tokens的模型需要大量算力。Qwen2.5-1M采用分阶段扩展策略:

  1. 预训练:从4K逐步扩展到256K上下文长度,同时调整RoPE基础频率(从10,000提升至10,000,000)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值