Qwen2 技术报告（翻译）

AI生成曾小健

已于 2024-08-01 21:25:55 修改

阅读量895

点赞数 13

分类专栏： # 混合专家模型MOE # Qwen千问源码解析及介绍 LLM大语言模型文章标签：深度学习人工智能

于 2024-07-17 00:08:46 首次发布

本文链接：https://blog.csdn.net/sinat_37574187/article/details/140480255

版权

LLM大语言模型同时被 3 个专栏收录

460 篇文章 13 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

混合专家模型MOE

48 篇文章 0 订阅

订阅专栏

Qwen千问源码解析及介绍

21 篇文章 4 订阅

订阅专栏

Qwen2 技术报告（翻译）

原创 Qwen2 机智流 2024年07月16日 20:16 浙江

原文链接：https://arxiv.org/html/2407.10671v1

💡 TR-DR：

Tokenizer:BBPE, vocab_size=151646

Pretrain：0.5B(12T)、1.5B,7B,72B(7T)、57-A14B(4.5T)

Data mixture：缩放模型上确定数据配比

Long Context：Dual Chunk Attention with YARN + modified the base frequency of RoPE from 10,000 to 1,000,000 + from 4,096 tokens to 32,768 tokens during the concluding phase of pre-training

MoE：upcycling initialization + smaller-scale experts + shared and specialized experts

SFT：dataset：50w, length: 32,768, epoch: 2, lr: 7e-6~7e-7

本报告介绍了Qwen2系列，这是我们大型语言模型和大型多模态模型的最新补充。我们推出了一套全面的基础模型和指令优化模型，参数范围从50亿到720亿，包括稠密模型和专家混合模型。Qwen2在语言理解、生成、多语种能力、编程、数学和推理等多个基准测试上的表现与大多数先前的开源模型相比更为出色，并与专有模型在性能上具有竞争力。

旗舰型号Qwen2-72B展现出卓越的性能：在MMLU上的得分为84.2，在GPQA上的得分为37.9，在HumanEval上的得分为64.6，在GSM8K上的得分为89.5，在BBH上的得分为82.4，作为基准语言模型。指令微调的变体Qwen2-72B-Instruct在MT-Bench上的得分为9.1，在Arena-Hard上的得分为48.1，在LiveCodeBench上的得分为35.7。此外，Qwen2还展现出出色的多语言能力，能够熟练掌握大约30种语言，涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等，凸显了其多功能性和全球影响力。

为了促进社区创新和提高模型的可访问性，我们已在Hugging Face上公开发布了Qwen2模型的权重。

1 介绍

随着ChatGPT（OpenAI, 2022）的出现，全球对大型语言模型（LLMs）的热情高涨。Llama系列（Touvron et al.， 2023）的发布进一步点燃了开源社区的兴趣，特别是针对GPT级别的本地LLMs。最近，Claude-3 Opus（Anthropic, 2024）和GPT-4o（omni）（OpenAI, 2024），ChatGPT的更新模型，迅速攀升至Chatbot Arena（Chiang et al.， 2024）的巅峰。该平台因其对LLMs的人类评估而备受好评。此外，Llama-3（AI@Meta, 2024）已发展成为最先进的开源模型系列，在性能上与领先的专有模型的差距不断缩小，并被广泛认为达到了GPT-4的水平。越来越多的竞争性LLMs正在追求与OpenAI GPT系列类似的改进。其中许多模型，包括Qwen（Bai et al.， 2023a）、Mistral（Jiang et al.， 2023a）、Gemma（Mesnard et al.， 2024）等，均以开源方式发布。

在过去的几个月里，我们陆续推出了Qwen系列（Bai等人，2023a），并推出了Qwen1.5（Qwen团队，2024a）。与此同时，我们还推出了视觉语言模型Qwen-VL（Bai等人，2023b），并推出了音频语言模型Qwen-Audio（Chu等人，2023）。在本工作中，我们推出了Qwen家族中最新的大型语言模型和大型多模态模型：Qwen2。Qwen2是一系列基于Transformer架构（Vaswani等人，2017）的LLMs，通过预测下一个单词进行训练。该系列模型包括基础模型，即基于语言的未对齐基础模型，以及经过指令调优的模型，这些模型经过单轮和多轮指令遵循数据集的微调，适用于聊天和代理目的。我们的发布包括四个参数数量分别为50亿、150亿、700亿和720亿的密集模型，以及一个参数数量为570亿的混合专家（MoE）模型，其中每个单词激活了140亿参数。较小的模型，特别是Qwen2-0.5B和Qwen2-1.5B，是专门为便携式设备（如智能手机、耳机和智能眼镜）的轻松部署而设计的。相反，较大的模型则适用于不同规模GPU的部署。

所有模型都基于一个高质量的大规模数据集进行预训练，该数据集包含超过700亿（）个令牌，涵盖了广泛的领域和语言。与之前的版本相比，Qwen2包含了更广泛的语言学数据，增强了代码和数学内容的数量和质量。这种丰富化被认为可以提高LLM的推理能力。在后训练阶段，所有模型都经过了监督微调和直接偏好优化（DPO，Rafailov等人，2023），通过从人类反馈中学习来与人类偏好保持一致。这一过程赋予了模型有效执行指令的能力。

我们对Qwen2进行了全面评估，并选择了一些基准模型进行对比，包括通过API可访问的开源模型和专有模型。在对基本语言能力和指令优化功能的评估中，Qwen2的表现优于竞争对手。具体来说，我们的指令优化变体Qwen2-72B-Instruct在MT-Bench（Zheng等人，2023）上的得分为9.1，在Arena-Hard（Chiang等人，2024）上的得分为48.1，在LiveCodeBench（Jain等人，2024）上的得分为35.7。同时，基础语言模型Qwen2-72B在MMLU（Hendrycks等人，2021a）上的得分为84.2，在GPQA（Rein等人，2023）上的得分为37.9，在HumanEval（Chen等人，2021）上的得分为64.6，在GSM8K（Cobbe等人，2021）上的得分为89.5，在BBH（Suzgun等人，2023）上的得分为82.4。

2 Tokenizer & Model

本节介绍了Qwen2的分词器和模型设计。我们详细介绍了不同模型大小的模型架构和配置。

2.1Tokenizer

参照Qwen（白等人，2023a），我们采用了基于字节级字节对编码的相同分词器。值得注意的是，该分词器具有较高的编码效率，其相对于其他分词器的压缩率更好，从而为Qwen2的多语言能力提供了便利。

各种尺寸的模型都使用了一种共有的词汇表，包含151,643个常规令牌和3个控制令牌。有关更多信息，请参阅Bai等人（2023a）。值得注意的是，由于分布式训练的考虑，嵌入的有效大小更大。

2.2Model Architecture

Qwen2系列从根本上基于Transformer架构构建了大型语言模型，采用了自注意力机制和因果遮罩（Vaswani等人，2017）。具体来说，该系列包含四种不同规模的稠密语言模型和一种混合专家（Mixture-of-Experts，MoE）模型。在深入探讨MoE模型的独特特性之前，我们先介绍一下稠密模型的具体内容。

Qwen2稠密模型的架构由多个Transformer层组成，每个层都配备了自上而下的注意力机制和前馈神经网络（FFN）。与Qwen相比，其关键区别如下：

Grouped Query Attention

我们采用的是 Grouped Query Attention (GQA，Ainslie 等人，2023)，而不是传统的多头注意力机制(MHA)。GQA 在推理过程中优化了 KV 缓存的使用，显著提高了吞吐量。2.2.3 节详细报告了不同模型大小的 KV 头配置。

Dual Chunk Attention with YARN

为了扩大Qwen2的上下文窗口，我们实现了双切片注意力（DCA，An等人，2024），将长序列分割成可管理的长度块。如果输入可以被分割成块，DCA将产生与原始注意力相同的结果。否则，DCA可以有效地捕捉块内和跨块之间token之间的相对位置信息，从而改善长上下文性能。此外，我们还使用了YARN（Peng等人，2023）来对注意力权重进行缩放，以实现更好的长度外推

此外，我们还使用了SwiGLU（Dauphin等人，2017）来实现激活，Rotary Positional Embeddings（RoPE，Su等人，2024）来实现位置嵌入，QKV偏置（Su，2023）来实现注意力，RMSNorm（Jiang等人，2023b）和预规范化来实现训练的稳定性。

2.2.2 Qwen2 专家混合模型

Qwen2模型的架构与Qwen1.5-MoE-A2.7B（Qwen团队，2024c）的架构非常相似。作为FFN的替代方案，MoE FFN由多个独立的FFN组成，每个FFN都充当一个专家。每个令牌都根据由门控网络分配的概率被定向到一个特定的专家进行计算：

在接下来的内容中，我们将介绍Qwen2 MoE的关键设计考虑因素。

表1：Qwen2稠密模型和MoE模型的架构。对于MoE模型，57B-A14B表示模型总共有57B个参数，每个token有14B个参数是激活的，Intermediate size表示每个专家的大小，而# Activated Experts不包括共享专家。

Expert Granularity

MoE模型与稠密模型的关键结构差异在于，MoE层包含多个FFN（全连接层），每个FFN都作为独立的专家。因此，从稠密架构过渡到MoE架构的一种直接方法是将每个专家的参数设置为原始稠密模型中单个FFN的参数。例如，从Mistral-7B（Jiang等人，2023a）过渡到Mixtral 8x7B（Jiang等人，2024），就是逐个激活其中的八个专家。与此不同，我们的模型使用了精细化的专家（Dai等人，2024），在激活更多专家的同时创建了更小规模的专家。在专家参数总数和激活参数总数相等的情况下，精细化专家提供了更丰富的专家组合。通过利用这些精细化专家，Qwen2 MoE可以更有效地利用多样化且动态的专家，从而提升整体性能和适应性。

Expert Routing

专家路由机制的设计对于提升MoE模型的性能至关重要。最近，出现了在MoE层内集成共享和路由专用专家的趋势（Rajbhandari 等人，2022；Dai等人，2024）。我们采用了这种方法，因为它可以使共享专家在各种任务中得到应用，同时保留其他专家用于特定路由场景的特定使用。引入共享和专业专家为开发MoE路由机制提供了更灵活和高效的方法。

我们采用与循环再生（Komatsuzaki 等人，2023）类似的方式初始化专家，利用稠密模型的权重。与此相反，我们的方法强调细粒度专家之间的多样化，以增强模型的表示范围。给定指定的专家中间尺寸、专家数量和原始FFN中间尺寸，将FFN复制次。这种复制确保了与指定的专家数量的兼容性，并能够适应任意的专家中间尺寸。为了在每个FFN副本中促进多样性，沿中间维度对参数进行打乱。这保证了每个细粒度专家都具有独特的特征，即使在不同的FFN副本之间也是如此。接下来，从FFN副本中提取这些专家，并丢弃其余的维度。对于每个细粒度专家，随机重新初始化其50%的参数。这个过程在专家初始化中引入了额外的随机性，可能有助于在训练期间增强模型的探索能力。

2.2.3Model Configuration 2.2.3 模型配置

在接下来的内容中，我们将为您提供Qwen2系列的关键配置和信息。

Qwen2系列包含5种不同尺寸的模型，分别是Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。表1列出了超参数和一些重要信息，例如预训练后的词数。值得注意的是，Qwen2-57B-A14B是从Qwen2-7B放大而来的。值得注意的是，Qwen2模型相对于Qwen1.5模型具有更低的Key-Value（KV）大小。这一特性转化为更小的内存占用空间，这对于长上下文推理任务特别有利。

3Pre-training 预训练

在Qwen2的预训练过程中，我们的努力主要集中在完善数据集以及研究有效处理更长上下文长度的方法上。

3.1 预训练数据

Qwen2模型的预训练涉及到开发一个新的大规模高质量多语言语料库。这个语料库在几个关键领域提高了预训练数据的规模、质量和多样性，相比之前用于Qwen和Qwen1.5模型的语料库（Bai et al.， 2023a; Qwen Team, 2024a），这是一个改进。

Quality Enhancement 质量改进

该过滤算法已通过添加启发式方法和基于模型的方法进行了改进，其中包括使用Qwen模型来过滤低质量数据。此外，这些模型还被用于合成高质量的预训练数据。

Data Expansion 数据扩展

与Qwen1.5（Qwen团队，2024a）相比，我们收集了大量高质量的代码、数学和多语言数据，从而在相应领域增强了模型的能力。这个新数据集支持约30种语言，包括英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语和越南语。

Distribution Improvement 分布改善

为了确保模型能够像人类一样学习到相似的分布，我们对缩小后的模型进行了实验，以优化来自不同来源和领域的数据的混合。

在这些改进的基础上，预训练数据从Qwen1.5（Qwen团队，2024a）的3000亿个token扩展到700亿个token。尝试进一步放松质量阈值的结果是产生了一个1200亿个token的数据集。然而，在该数据集上训练的模型并没有显示出比700亿个token模型显著的性能提升。有人怀疑，增加数据量并不一定有益于模型预训练。考虑到训练成本，我们选择使用更高质量的700亿个token数据集来训练更大的模型，并将进一步探索留给未来的模型迭代

所有Qwen2稠密模型，除了Qwen2-0.5B之外，都是在超过700亿个令牌的大规模数据集上预先训练的。Qwen2-0.5B是在120亿个令牌的数据集上预先训练的。MoE模型按照循环利用的原则，额外接受了4.5万亿个令牌的预先训练。与之前的Qwen模型类似，高质量的多任务指令数据被融入Qwen2的预训练过程中，以增强上下文学习和指令执行能力。

3.2 长语境训练

为了增强Qwen2的长文本处理能力，我们在预训练的收尾阶段将上下文长度从4096个token扩展到了32768个token。这一扩展还伴随着引入了大量高质量、较长的数据。与这些改进相结合，我们将RoPE的基础频率从10000调整到了1000000，以优化长文本场景下的性能（熊等，2023年）

为了充分发挥模型的长度外推潜力，我们采用了YARN机制（Peng et al.， 2023）和双切片注意力机制（An et al.， 2024）。这些策略使模型能够处理长达131,072个token的序列，并在初步实验中显示出极低的交叉熵下降，从而保持了高性能。

4Post-training

在对Qwen2进行了大规模的前期训练之后，我们进入了后训练阶段。这一过程对于提升其在广泛领域的能力至关重要，包括编程、数学、逻辑推理、指令遵循和多语言理解。此外，它确保模型的生成与人类价值观相一致，使其具有帮助性、诚实性和无害性。与传统方法不同，我们的方法侧重于与人类标注的低耦合的可扩展对齐（Cao et al.， 2024）。具体来说，我们研究了获取高质量的示例和偏好数据的方法，用于监督微调（SFT）和从人类反馈中学习（RLHF），旨在在最大限度地提高数据质量和可靠性的同时，减少对人类标注的依赖。

训练后的数据主要由两部分组成：示范数据和偏好数据，其中代表指令，代表满意的响应，和是针对的两个响应，其中是相对于的首选选择。集合用于SFT，而用于RLHF

训练数据的构建包括两个步骤：协作数据标注和自动化数据合成。首先，我们从大规模的教程语料库中提取数据本体，从而获得一套广泛且多样化的高质量指令。然后，我们系统地对这些指令进行改进，以增加其复杂性。通过人工标注，我们获取了目标响应及其正反例。接下来，我们采用多种自动化对齐策略，在代码、数学、指令遵循、创造和角色扮演等领域合成大量人工标注的数据。

4.1.1 协作数据标注

自动本体提取

该过程始于应用InsTag（Lu等人，2024c），这是一种开放集细粒度标签器，从大规模指令数据集中提取底层本体。随后的手动精炼确保了提取的本体的准确性。

Instruction Selection 指令选择

每一条带有标签的指令都会被评估其标签多样性、语义丰富度、复杂度和意图完整性。基于这些标准，我们选取了一组具有代表性的指令（Dong et al.， 2023）。

Instruction Evolution 指令集演进

为了丰富指令集，采用了一种自我进化策略（赵等人，2024年），促使Qwen模型为现有指令添加约束或要求，从而增加其复杂性，并在数据集中确保具有多样化的难度级别。

Human Annotation 人类的注释

通过采用不同的生成策略和不同规模的Qwen模型，可以获得对指令的多种响应。注释者根据自己的偏好对这些响应进行排序，确保最佳响应符合既定标准，从而产生示例和偏好数据。

4.1.2 自动数据合成

对指令响应的注释进行质量维护在大规模上存在重大挑战，尤其是那些需要专业知识、经验、细心或耐心的情况。为了解决这些挑战，我们设计了各种自动化对齐策略，以在大规模上合成数据。

Rejection Sampling 拒绝抽样

对于那些有明确最终答案的数学或其他类似任务，可以采用拒绝采样（Yuan 等人，2023）来提高解决方案的质量。大型语言模型（LLMs）被分配生成每个指令的多个响应，即推理路径。模型认为合理且能得出准确结论的路径被保留下来，作为示例数据。通过对比正确和错误的路径来生成偏好数据。

Execution Feedback 执行反馈

对于没有接受过专业培训的标注者来说，在文学写作任务中生成高水平的响应是一项具有挑战性的任务。为了解决这个问题，我们从公共领域中收集高质量的文学作品，并使用LLMs开发具有不同详细程度的指令。这些指令与原始作品一起作为示例数据。例如，为了生成生动有趣的角色扮演数据，我们从维基百科等知识库中获取详细的角色简介，并指导LLMs生成相应的指令和响应（卢等人，2024b）。这个过程类似于阅读理解任务，可以确保角色简介的完整性。

Constitutional Feedback 宪法反馈

宪法AI指的是指导LLMs根据预先定义的一系列原则生成响应的过程（Bai等人，2022年）。为了确保遵循安全和价值观等指导原则，编制了一份宪法数据集。该数据集明确了应遵循的原则和应避免的原则。它被用于指导LLMs生成与这些指导原则相一致或偏离这些指导原则的响应，作为示例和偏好数据的参考。

4.2Supervised Fine-tuning

我们的RLHF训练方案包含两个连续的阶段：离线训练和在线训练。在离线训练阶段，我们使用预先编译的偏好数据集，通过直接偏好优化（DPO，Rafailov等人，2023年）来最大化和之间的似然差异。在在线训练阶段，模型利用奖励模型提供的即时反馈，不断迭代地改进其实时表现。具体来说，我们从当前的策略模型中抽取多个响应，奖励模型选择最不喜欢和最喜欢的响应，形成用于DPO的偏好对，并在每个会话中使用。此外，我们使用在线融合优化器（Lu等人，2024a）来缓解“对齐税”，即模型生成与人类偏好对齐时的性能下降。

5Evaluation

为了全面评估Qwen2模型（包括基础模型和指令微调模型），我们实施了一套完整的评估协议。该协议考察了多种能力，包括一般知识理解、语言理解、生成、编码、数学、推理以及其他领域的专业知识。具体来说，对于基础模型，我们使用大型语言模型（LLMs）的已建立的基准数据集进行评估，除非另有说明，否则通过少量提示获取响应。对于指令微调模型，除了基准评估外，我们还优先考虑人类偏好评估。

5.1Base Language Models

在本节中，我们将展示Qwen2系列基础语言模型的评价。具体来说，我们将在知识和基本能力基准数据集上对这些模型进行评估，并使用多语言基准数据集对其支持的语言进行评估。由于有多种模型大小，我们将它们与具有相似或更大尺寸的当前最佳（SOTA）模型进行比较。

5.1.1Core Capabilities 5.1.1

基准测试与评估协议

评估基础语言模型核心能力的常见做法是通过少量样本或零样本提示的基准数据集评估。评估主要关注自然语言理解、通用问题解答、编程、数学、科学知识、推理等模型性能。

Qwen2-72B

在Qwen2的最大模型方面，我们将Qwen2-72B与包括Mixtral-8x22B（江等人，2024年）、Llama-3-在评估中文语言理解能力时，Qwen2-72B显著优于Mixtral-8x22B和Llama-3-70B，并且也优于Qwen1.5-72B。

Qwen2-57B-A14B

对于MoE模型的评价中，Qwen2-57B-A14B与具有类似规模的基准模型进行了比较。这些基准模型包括其他MoE模型，如Mixtral-8x7B（江等人，2024年）和Jamba（Lieber等人，2024年），以及稠密模型，如Yi-1.5-34B（Young等人，2024年）和Qwen1.5-32B（Qwen团队，2024a年），它们的参数数量大约为300亿。结果如表3所示。我们预计激活14亿参数的Qwen2-57B-A14B将达到与具有300亿参数的稠密等效Qwen2模型相当的性能。我们的评估显示，Qwen2-57B-A14B在自然语言理解任务中的表现与Yi-1.5-34B相当。此外，它在编码和数学任务中的表现优于基准模型。此外，Qwen2-57B-A14B展示了出色的中文理解能力，与更大的Qwen2-72B模型不相上下。简而言之，Qwen2-57B-A14B是一个高效的模型，虽然每次前向传播仅激活14亿个参数，但仍能保持与具有300亿参数的稠密模型相同的性能水平。

Qwen2-7B

7B模型得到了广泛应用，因为它可以在配备16GB内存的加速器上以16位浮点数执行。我们的重点是比较该模型与其他领先的7B模型，包括最近在Chatbot Arena中表现出色的Llama-3-8B（Chiang等人，2024年）。比较还包括Mistral-7B-v0.2（Jiang等人，2023a）、Gemma-7B（Mesnard等人，2024年）和我们的前代产品Qwen1.5-7B（Qwen Team，2024a）。结果请参见表4。Qwen2-7B在大多数数据集上的表现优于其他模型，特别是在编码任务、数学和中文语言任务方面表现卓越。它在多语言理解和考试中也表现出了较强的性能。这表明Qwen2-7B已针对广泛的语言和逻辑任务进行了优化，展示了其多功能性和先进能力。

为了评估我们较小的模型（具体为Qwen2-1.5B和Qwen2-0.5B）的表现，我们将它们与已建立的基准模型进行比较：Phi-2（Abdin等人，2024年）、Gemma-2B（Mesnard等人，2024年）和Qwen1.5-1.8B（Qwen团队，2024a年）。结果如表5所示。在语言理解方面，Qwen2-1.5B在文本书式数据上训练的Phi-2之上。在编码任务方面，Qwen2-0.5B与Gemma-2B和Qwen1.5-1.8B的性能相当，而Qwen2-1.5B则超过了这些基准模型，除了Phi-2。在数学方面，Qwen2模型的表现优于其竞争对手。在一般推理方面，我们发现Phi-2通常在所有模型中表现最佳，这在一定程度上反映了文本书数据对推理能力的重要性。在TruthfulQA中，Qwen2-1.5B表现最佳，表明较小的模型并不一定会出现幻觉。在中文语言理解方面，两个Qwen2模型都优于其他所有模型，这一趋势与它们各自的比较中较大的模型相一致。

总的来说，Qwen2系列在不同模型大小上都表现出了优于基准的表现。值得注意的是，Qwen2-72B在所有Qwen2模型中表现最佳，这凸显了模型大小缩放的有效性。

5.2Instruction-tuned Model

5.2.1Open Benchmark Evaluation

为了全面评估指令调优模型的质量，我们将自动评估和人工评估相结合，以评估其能力和人类偏好。对于基本能力的评估，我们使用预训练模型评估中的相似数据集，目标是自然语言理解、编程、数学和推理。具体来说，我们对MMLU、MMLU-Pro、GPQA和Theorem QA进行语言理解和知识评估，对HumanEval、MBPP、MultiPL-E和LiveCodeBench v1（Jain等人，2024）进行编程评估，对GSM8K和MATH进行数学评估。此外，我们通过评估包括MT-Bench（Zheng等人，2023）、Arena-Hard（Li等人，2024）、AlignBench（Liu等人，2023b）、MixEval（Ni等人，2024）在内的基准测试的结果，评估人类偏好与指令的一致性以及指令遵循性能，这些基准测试的结果与Chatbot Arena的结果接近，以及IFEval（Zhou等人，2023）。

Qwen2-72B-Instruct

将Qwen2-72B-Instruct与指令调谐模型Mixtral-8x22B-Instruct、Llama-3-70B-Instruct以及Qwen1.5-72B-Chat进行了比较。结果如表6所示。可以发现，一个强大的基础语言模型可以帮助提高指令调优模型的下游性能。具体来说，除了GPQA和MBPP之外，Qwen2-72B-Instruct在语言理解、编码和数学等领域超过了其同行。在人类偏好对齐和指令遵循方面，Qwen2-72B较基线具有显著优势。本文假设这一成就归因于高质量的预训练模型以及训练后数据和训练技术的改进。

Qwen2-57B-A14B-Instruct

对于中等规模的模型，将Qwen2-57B-A14B-Instruct与另一个MoE基线Mixtral-8x7B-Instruct，以及超过300亿参数的密集SOTA模型进行了比较，如Yi-1.5-34B-Chat和Qwen1.5-32B-Chat。结果如表7所示。与Qwen1.5-32B-Chat相比，Qwen2-57B-A14B-Instruct在几乎所有测试中都取得了优越的性能;与30B SOTA模型Yi-1.5-34B-Chat相比，Qwen2-57B-A14B-Instruct在除数学测试外的大多数测试中都取得了优势。在对准评价方面，Qwen2-57B-A14B-Instruct的优势非常明显。

Qwen2-7B-Instruct

在7B到9B模型的频谱范围内，将Qwen2-7B-Instruct与Llama-3-8B-Instruct、Yi-1.5-9B-Chat、GLM-4-9B-Chat和Qwen1.5-7B-Chat进行了比较。结果如表8所示。在综合评估中，Qwen2-7B-Instruct与其前身Qwen1.5-7B-Chat相比有了实质性的进步，特别是在编码和数学相关任务中取得了更高的分数。与最近的SOTA模型相比，Llama-3-8B-Instruct和Qwen2-7B-Instruct表现出了相当的性能，特别是在编码方面取得了更优越的性能。但是在指令跟随方面，Qwen2-7B-Instruct与竞争对手有很大的差距。为解决这一限制，计划通过提高训练后数据的质量来增强7B模型的指令跟随能力，确保对复杂命令的更鲁棒的理解和执行。

Qwen2-1.5B-Instruct

在较小的模型背景下，将Qwen2-0.5B-Instruct与Qwen1.5-0.5B-Chat、Qwen2-1.5B-Instruct与Qwen1.5-1.8B-Chat进行了比较。值得注意的是，为较大模型设计的某些数据集的复杂性超过了这些较小模型的能力;因此，我们的分析集中在一个选定的子集上。如表9所示，Qwen2模型在核心能力和指令遵循任务方面都表现出了明显的优势。这一成就主要归功于预训练数据的缩放。结果证实，数据扩展仍然是提高模型性能的有效策略，即使在次十亿参数模型领域。

5.2.2In-house Automatic Evaluation

尽管有许多用于评估的开放基准数据集，但我们认为，要完全理解llm的能力还远远不够。具体来说，我们制作了一系列内部数据集，评估模型的不同能力，例如知识理解、文本生成、编码等。评估有中文和英文两种。结果分别见表10和表11。

Chinese Evaluation

在中文评测中，我们重点比较了Qwen2模型和Qwen1.5模型的性能。对于小型模型，即使参数较少，Qwen2-1.5B-Instruct在几乎所有评估中都优于Qwen1.5-1.8B-Chat。在7B模型的对比上，Qwen2的优势更加显著。值得注意的是，Qwen2-72B的性能优于Qwen1.5-110B-Chat，尽管后者的参数要多得多。相对于Qwen1.5-32B-Chat, MoE模型在大多数领域都表现出了优越的性能，除了知识理解。这种差异可能是由于预训练token不足。在不久的将来，我们将继续对MoE模型进行预训练，以发现其缩放行为。

English Evaluation 英语评价

对于英语，我们将Qwen2与Qwen1.5和Llama-3进行比较。同样，Qwen2的小模型明显胜过Qwen1.5的同行。然而，与Llama-3-70B相比，Qwen2-72B-Instruct落后了一小部分，尤其是在理解和编码方面。本文假设预训练的英语token数量以及训练后的数据数量和多样性都会导致英语的性能差距。

5.2.3 长上下文功能

采用了三种评估长上下文能力的方法:大草堆中的针(NIAH, Kamradt, 2023)、NeedleBench (OpenCompass贡献者，2023)和lev - eval (Yuan等人，2024)。

Needle in a Haystack 大海捞针

这个实验评估了一个模型在大量文本中精确定位事实的熟练程度。设计了8K、16K、…、128K token长度的文本，并将事实战略性地放置在不同的深度。每个深度区间，如从0%到10%，包含两个实例。对于超过32K的上下文，使用YARN (Peng等人，2023)进行评估。如图1所示，Qwen2-72B-Instruct在从整个128K上下文中检索信息时表现出非凡的准确性。再加上其固有的优势，在资源充足的情况下，该模型是处理大量文本的最佳选择。此外，同一系列中的模型在不同的上下文长度中表现出了卓越的性能。精确地说，Qwen2-7B-Instruct在处理高达128K token的上下文时实现了高水平的准确性。同时，Qwen2- 57b - a14b - instruct可以熟练地管理多达64K个标记的上下文，Qwen2系列中的两个较小的模型可以支持32K个标记的上下文。

NeedleBench

NeedleBench通过在段落中包括多个事实(2到5个)来提高对NIAH的挑战，需要同时识别和多跳推理。表12显示，YARN和DCA (An et al.， 2024)的集成显著提高了Qwen2模型的长上下文能力。Qwen2-7B-Instruct超过了ChatGLM4-9B-1M (Zeng et al.， 2024)，后者声称上下文长度为1M。此外，Qwen2-72B-Instruct表现出较强的性能，精度仅下降6个点，而ChatGLM4-9B-1M下降更明显，下降了11个点，特别是在初始精度较低的情况下。

LV-Eval

LV-Eval包含11个不同的QA数据集，需要同时理解多个证据。为了纠正其原始指标过于严格而导致的高漏报率的缺点，采用关键字召回率作为报告得分。如表12所示，集成YARN和DCA大大增强了Qwen2模型在LV-Eval上的长上下文能力。Qwen2-7B-Instruct取得了与ChatGLM4-9B-1M相当的成绩，尽管在扩展的上下文中下降得更明显。此外，Qwen2-72B-Instruct在所有长度上都表现出强大的性能，证实了其在处理长上下文任务方面的熟练程度。

5.2.4Multilingual Evaluation

对于多语言评估，实现了一个全面的人工评估来评估多语言能力。具体来说，设计了不同的测试用例，评估大型语言模型的不同能力，并有多种语言的测试用例。对于标注者，我们为每一种语言邀请一名专业的标注者进行评估。对于每个测试用例，注释器用1到5的分数对模型的响应进行评分。

我们报告了我们的模型的结果和不同语言的评估基线。从表13可以看出，Qwen2-72B-Instruct的平均性能明显优于GPT-3.5-Turbo，与GPT-4-Turbo相当，略落后于Claude-3-Opus。这表明，多语言预训练和指令调优数据有助于Qwen2-72B-Instruct的多语言能力，并与最先进的专有llm相竞争。

5.2.5Safety & Responsibility

具有公开可访问权重的llm有效地加快了研究及其应用的发展。此外，我们认为建立安全和负责任的llm至关重要，这样可以显著减轻人工智能技术滥用的影响

实现了一个多语言安全评估，以不同语言测试llm。评估了模型在非法行为、欺诈、色情和隐私等主题中的安全性能。我们收集了容易越狱的提示，并使用它们来测试模型是否可以通过拒绝提供安全的响应。

结果如表14所示，其中显示了模型产生的有害反应的比例，且比例越低越好。可以看到，Qwen2-72B-Instruct的性能优于专有模型GPT-4，并且显著优于开放权重模型Mixtral-8x22B-Instruct。然而，我们相信，我们的模型仍有很大的空间来改进，以成为一个更安全、更负责任的模型，特别是在色情方面，这是一个传统上即使对人类也很难区分的类别。

6Conclusion

本技术报告介绍了Qwen2系列，这是一套通用的基础和指令微调语言模型，从5亿到720亿参数，包括密集和专家混合架构的模型。Qwen2优于之前的开放权重模型，特别是其前身Qwen1.5，并在语言理解、生成、多语言能力、编码、数学和推理的广泛基准上与专有模型表现出有竞争力的性能。在这次更新中，我们将特别关注长上下文、多语言、编码、数学能力以及安全和责任。在促进创新和社区内无障碍的承诺中，我们已使Qwen2模型权重公开可访问，这使研究人员和开发人员能够在各种应用和研究项目中利用Qwen2的全部潜力。通过这些努力，旨在促进人工智能技术的进步及其对社会的积极影响。