总体概要
本文介绍了阿里巴巴集团Qwen团队开发的Qwen2系列大型语言模型和多模态模型,这些模型在参数范围从0.5亿到720亿不等,包括密集模型和专家混合模型。Qwen2在语言理解、生成、多语言能力、编程、数学和推理等多个基准测试中表现出色,超越了大多数先前开放权重模型,并与专有模型竞争。旗舰模型Qwen2-72B在多项测试中取得了显著成绩,展示了其在多语言环境中的强大能力和全球适用性。文章还详细介绍了模型的架构、预训练和后训练过程,以及如何通过监督微调和人类反馈强化学习来调整模型以更好地遵循指令。最后,文章提到Qwen2模型的权重已在Hugging Face和ModelScope上公开,以促进社区创新和可访问性。
核心要点
-
Qwen2系列介绍:
- Qwen2是阿里巴巴集团推出的最新大型语言模型系列,包括基础语言模型和指令调优模型,参数范围从0.5亿到720亿不等,涵盖密集模型和混合专家(MoE)模型。
-
模型架构与设计:
- Qwen2采用基于Transformer的架构,引入了组查询注意力(GQA)和双块注意力(DCA)以优化推理过程中的KV缓存使用,并扩展了上下文窗口。
- MoE模型采用了细粒度专家(fine-grained experts)和专家路由机制,以提高模型的性能和适应性。
-
预训练与数据:
- Qwen2在超过7万亿令牌的高质量大规模数据集上进行了预训练,数据集覆盖广泛领域和语言,特别增强了代码和数学内容的数量和质量。
-
后训练与指令调优:
- 所有模型都经过了监督微调和直接偏好优化(DPO),以通过人类反馈学习来与人类偏好对齐,从而有效地遵循指令。
-
性能评估:
- Qwen2在多项基准测试中表现出色,如MMLU得分84.2,GPQA得分37.9,HumanEval得分64.6,GSM8K得分89.5,BBH得分82.4。
- 指令调优变体Qwen2-72B-Instruct在MT-Bench得分9.1,Arena-Hard得分48.1,LiveCodeBench得分35.7。
-
开放性与社区创新:
- Qwen2模型权重已在Hugging Face和ModelScope上公开,GitHub上提供了量化、微调和部署的辅助材料,以促进社区创新和应用开发。
段落概要
Introduction
文章介绍了Qwen系列大型语言模型的发展,特别是最新推出的Qwen2系列,该系列基于Transformer架构,通过下个词预测训练而成,包括基础语言模型和指令调优模型,适用于聊天和代理任务。Qwen2系列包含多种参数规模的模型,旨在适应不同设备和计算资源的部署需求。所有模型均在包含超过7万亿标记的高质量大规模数据集上进行预训练,并通过监督微调和直接偏好优化(DPO)与人类偏好对齐,以提高指令遵循能力。评估结果显示,Qwen2在基本语言能力和指令调优功能方面超越了竞争模型。
Tokenizer & Model
文章的“Tokenizer & Model”部分详细介绍了Qwen2系列大型语言模型的分词器和模型设计。分词器基于字节级字节对编码,具有高编码效率和良好的多语言能力。模型架构基于Transformer,包括四种规模的密集语言模型和一个具有57亿参数的混合专家(MoE)模型。密集模型采用分组查询注意力(GQA)和双块注意力(DCA)以优化推理性能和长文本处理能力。MoE模型通过细粒度专家和专家路由机制提高模型的性能和适应性。Qwen2系列在关键性能指标上超越了竞争模型,特别是在指令调整功能方面表现出色。
Pre-training
文章中“预训练”部分的核心要点是:Qwen2模型在预训练阶段采用了大规模、高质量的多语言数据集,通过改进过滤算法和数据混合策略,将数据量从3万亿token扩展到7万亿token,以提升模型的多语言理解和处理长文本的能力。此外,通过引入YARN机制和Dual Chunk Attention机制,模型能够处理长达131,072个token的序列,同时保持高性能。预训练过程中,还调整了RoPE的基础频率,以优化长文本场景下的性能。这些改进旨在使模型在编码、数学、逻辑推理、指令遵循和多语言理解等多个领域表现出色。
Post-training
文章中的Post-training
部分核心要点是:在大型预训练之后,Qwen2模型通过监督微调(SFT)和人类反馈强化学习(RLHF)进一步优化,以提升其在编码、数学、逻辑推理、指令遵循和多语言理解等领域的性能。这一过程通过高质量的示范数据和偏好数据的收集与合成,以及采用拒绝采样、执行反馈、数据再利用和宪法反馈等自动化策略,实现了模型与人类价值观的协调一致,同时减少了人工标注的需求。最终,通过综合评估协议,对Qwen2模型的基础语言模型和指令调整模型进行了全面评估,涵盖了知识理解、语言生成、编码、数学和推理等多个方面。
Evaluation
文章中的“Evaluation”部分详细介绍了Qwen2系列语言模型在多个方面的评估结果,包括核心能力、指令遵循、编码、数学、逻辑推理、角色扮演、多语言支持以及安全性等。通过广泛的基准测试和人类偏好评估,Qwen2模型在各项任务中展现出了优越的性能,不仅超越了其前身Qwen1.5,而且在某些领域与最新的专有模型相媲美。特别强调了Qwen2在处理长文本、多语言任务、编码和数学问题上的显著改进,以及在安全性和责任性方面的努力。评估结果表明,Qwen2系列模型在多个维度上都是强大且多功能的,为研究和开发提供了坚实的基础。通过开放模型权重,Qwen2系列旨在推动AI技术的创新和积极社会影响。
Conclusion
文章的结论部分概述了Qwen2系列语言模型,这是一套基础和指令调优的语言模型,参数范围从0.5到720亿,包括密集型和专家混合架构模型。Qwen2在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中超越了之前的开源模型,如Qwen1.5,并在广泛的性能指标上与专有模型竞争。文章强调了在长上下文、多语言、编码、数学能力以及安全和责任方面的额外关注。此外,Qwen2模型的权重被公开提供,以促进社区内的创新和可访问性,旨在推动AI技术的进步和积极社会影响。