Qwen2 技术报告(中文版)

文档:https://qwen.readthedocs.io/en/latest/
论文:https://arxiv.org/abs/2407.10671
博客:https://qwenlm.github.io/blog/qwen2/
模型:https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
Github:https://github.com/QwenLM/Qwen2

整体目录结构

QWEN2 技术报告
- 摘要
- 1 引言
- 2 Tokenizer & Model
  - 2.1 Tokenizer 
  - 2.2 模型架构
    - 2.2.1 Qwen2 稠密模型
    - 2.2.2 Qwen2 专家混合模型(MoE)
    - 2.2.3 模型配置
- 3 预训练
  - 3.1 预训练数据
  - 3.2 长上下文训练
- 4 后训练
  - 4.1 后训练数据
    - 4.1.1 协作数据注释
    - 4.1.2 自动数据合成
  - 4.2 有监督微调(SFT)
  - 4.3 人类反馈的强化学习(RLHF)
- 5 评估
  - 5.1 基础语言模型
    - 5.1.1 核心能力
  - 5.2 指令微调模型
    - 5.2.1 开放基准评估
    - 5.2.2 内部自动评估
    - 5.2.3 长上下文能力
    - 5.2.4 多语言评估
    - 5.2.5 安全 & 责任
- 6 结论
- 参考文献

摘要

这篇技术报告介绍了Qwen2系列,这是我们大型语言模型和大型多模态模型系列中的最新成员。我们发布了一套全面的基础和指令调整语言模型,参数范围从 0.5b 到 72b,包括稠密模型和专家混合模型。Qwen2在包括语言理解、生成、多语言能力、编码、数学和推理在内的多个基准测试中,超越了大多数以前的开放权重模型,包括其前身Qwen1.5,并且与专有模型表现出竞争力。

旗舰模型Qwen2-72B表现出优异性能:在MMLU上得分84.2,在GPQA上得分37.9,在HumanEval上得分64.6,在GSM8K上得分89.5,在BBH上得分82.4,作为基础语言模型。指令调整变体Qwen2-72B-Instruct在MT-Bench上获得9.1分,在Arena-Hard上获得48.1分,在LiveCodeBench上获得35.7分。此外,Qwen2展示了强大的多语言能力,精通约30种语言,包括英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,凸显了其多功能性和全球覆盖范围。

为了促进社区创新和可访问性,我们已经在Hugging Face和ModelScope上公开提供了Qwen2模型权重,并且在GitHub上提供了包括示例代码在内的补充材料。这些平台还包括量化、微调和部署的资源,促进了广泛的应用和研究工作。

1 引言

随着OpenAI在2022年推出ChatGPT之后,全球对大型语言模型(LLMs)的热情不断高涨。2023年,Llama系列的发布进一步点燃了开源社区对GPT级本地LLM的兴趣。最近,Anthropic在2024年发布的Claude-3 Opus和OpenAI在2024年更新的ChatGPT模型GPT-4o迅速攀升至聊天机器人竞技场(Chatbot Arena)的顶峰。这个平台因其对LLMs的人类评估而备受推崇。此外,AI@Meta在2024年推出的Llama3已成为最先进的开放权重模型系列,缩小了与领先专有模型的性能差距,并被广泛认为是GPT-4级别的模型。越来越多的竞争性LLMs正在追求与OpenAI的GPT系列相似的进步。包括Qwen(Bai等人,2023a)、Mistral(Jiang等人,2023a)、Gemma(Mesnard等人,2024)等在内的许多模型都以开放权重的方式发布。

近几个月来,我们陆续推出了Qwen系列(Bai等人,2023a),并发展到Qwen1.5(Qwen团队,2024a)。与此同时,我们公开了视觉-语言模型Qwen-VL(Bai等人,2023b),并推出了音频-语言模型Qwen-Audio(Chu等人,2023)。在这项工作中,我们介绍了Qwen家族大型语言模型和大型多模态模型的最新成员:Qwen2。Qwen2是基于Transformer架构(Vaswani等人,2017)的一系列LLMs,使用下一个词预测进行训练。该模型系列包括基础的,即预训练但未与人类偏好对齐的基础语言模型,以及针对聊天和代理目的使用单轮和多轮指令遵循数据集进行微调的指令微调模型。我们的发布包括四个稠密模型,参数计数分别为0.5b、1.5b、7b和72b,以及一个具有57b参数的专家混合(MoE)模型,每个标记激活14亿参数。特别是Qwen2-0.5B和Qwen2-1.5B小型模型,旨在轻松部署在智能手机、耳机和智能眼镜等便携设备上。相反,较大的模型适用于不同规模的GPU部署。

所有模型都是在超过7 trillion token(7万亿)的高质量、大规模数据集上预训练的,涵盖了广泛的领域和语言。与以前的Qwen版本相比,Qwen2包含了更广泛的语言数据,增强了代码和数学内容的数量和质量。这种丰富被假设为提高LLMs的推理能力。关于后训练,所有模型都经过了有监督的微调和直接偏好优化(DPO,Rafailov等人,2023),通过学习人类反馈使它们与人类偏好对齐。这个过程赋予了模型有效遵循指令的能力。

我们对Qwen2进行了全面的评估,并与一些基线模型进行了比较,包括通过API可访问的开放权重和专有模型。Qwen2在基础语言能力和指令调整功能评估中的性能超越了竞争模型。具体来说,我们的指令调整变体Qwen2-72B-Instruct在MT-Bench(Zheng等人,2023)、Arena-Hard(Chiang等人,2024)和LiveCodeBench(Jain等人,2024)上的得分分别为9.1、48.1和35.7。同时,基础语言模型Qwen2-72B在MMLU(Hendrycks等人,2021a)、GPQA(Rein等人,2023)、HumanEval(Chen等人,2021)、GSM8K(Cobbe等人,2021)和BBH(Suzgun等人,2023)上的得分分别为84.2、37.9、64.6、89.5和82.4。

2 Tokenizer & Model

本节介绍Qwen2的分词器和模型设计。我们详细说明了不同模型大小的模型架构和配置。

2.1 Tokenizer

沿用Qwen(Bai等人,2023a)的做法,我们采用了基于字节级字节对编码的相同Tokenizer。值得注意的是,该分词器展现出高编码效率,这得益于其相对于替代方案更好的压缩率,这有助于Qwen2的多语言能力。

所有大小的模型都采用一个共有词汇表,包含151,643个常规词元和3个控制词元。有关更多信息,请参考Bai等人(2023a)。需要注意的是,由于分布式训练的考虑,嵌入的有效大小会更大。

2.2 模型架构

Qwen2系列基本上是基于Transformer架构的大型语言模型,具有自注意力和因果掩码(Vaswani等人,2017)。具体来说,该系列包括4个规模的稠密语言模型和一个专家混合(MoE)模型。我们在深入MoE模型的独特属性之前,先介绍稠密模型的细节。

2.2.1 Qwen2 稠密模型

Qwen2密集模型的架构包括多个Transformer层,每层都配备了因果注意力机制和前馈神经网络(FFN)。与Qwen的主要区别如下:

  • 分组查询注意力:我们采用了分组查询注意力(Grouped Query Attention,GQA,Ainslie等人,2023)而不是传统的多头注意力(multi-head attention,MHA)。GQA在推理期间优化了KV缓存的使用,显著提高了吞吐量。不同模型大小的详细KV头配置在第2.2.3节报告。

  • 双块注意力与YARN:为了扩大Qwen2的上下文窗口,我们实现了双块注意力(Dual Chunk Attention,DCA,An等人,2024),它将长序列分割成可管理的长度块。如果输入可以在一个块中处理,DCA产生与原始注意力相同的结果。否则,DCA有助于在块内和跨块之间有效地捕获相对位置信息,从而提高长上下文性能。此外,我们还采用了YARN(Peng等人,2023)来重新调整注意力权重,以实现更好的长度外推。

我们还沿用了Qwen的使用,包括SwiGLU(Dauphin等人,2017)作为激活函数,旋转位置嵌入(RoPE,Su等人,2024)作为位置嵌入,QKV偏置(Su,2023)用于注意力,RMSNorm(Jiang等人,2023b)和预归一化用于训练稳定性。

2.2.2 Qwen2 专家混合模型(MoE)

Qwen2 MoE模型的架构与Qwen1.5-MoE-A2.7B(Qwen团队,2024c)非常相似。作为原始FFN的替代,MoE FFN由n个单独的FFN组成,每个FFN作为一个专家。每个标记根据由门控网络 G G G 分配的概率被引导到特定的专家 E i E_i Ei 进行计算:

p = softmax ( G ( x ) ) p = \text{softmax} (G (x)) p=softmax(G(x))

y = ∑ i ∈ top k ( p ) E i ( x ) y = \sum_{i \in \text{top}_k(p)} E_i(x) y=itopk(p)Ei(x)

接下来,我们将介绍Qwen2 MoE的关键设计考虑。

  • 专家粒度:MoE模型与密集模型的关键结构区别在于MoE层包含多个FFN,每个FFN作为一个独立的专家。因此,从密集架构过渡到MoE架构的一个直接策略是将每个专家的参数设置为原始密集模型中单个FFN的参数。例如,从Mistral-7B(Jiang等人,2023a)过渡到Mixtral 8x7B(Jiang等人,2024)涉及一次激活八个专家中的一个。不同地,我们的模型采用了细粒度专家(Dai等人,2024),创建了规模更小的专家,同时激活了更多的专家。在总专家参数和激活参数相等的情况下,细粒度专家提供了更丰富的专家组合。通过利用这些细粒度专家,Qwen2 MoE促进了更多样化和动态的专家利用,从而提高了整体性能和适应性。

  • 专家路由:专家路由机制的设计对于提高MoE模型的性能至关重要。最近,将共享专家和特定路由专家整合到MoE层内的趋势日益明显(Rajbhandari等人,2022;Dai等人,2024)。我们采用了这种方法,因为它既促进了在各种任务中应用共享专家,又保留了其他专家在特定路由场景中选择性使用。引入共享和专门的专家为开发MoE路由机制提供了一种更适应性和有效的方法。

  • 专家初始化(Expert Initialization):我们以类似于废物利用(upcycling,Komatsuzaki等人,2023)的方式初始化专家,利用密集模型的权重。与此不同,我们的方法强调在细粒度专家之间实现多样化,以增强模型的表现力广度。给定指定的专家中间尺寸 h E h_E hE,专家数量 n n n 以及原始前馈网络中间尺寸 h F F N h_{FFN} hFFN,FFN被复制 ⌈ n × h E h F F N ⌉ \lceil \frac{n \times h_E}{h_{FFN}} \rceil hFFNn×hE 次。这种复制确保了与指定专家数量的兼容性,同时适应任何任意的专家 intermediate size。为了在每个FFN副本中促进多样性, intermediate 维度参数进行shuffle。这确保了即使在不同的FFN副本中,每个细粒度专家也表现出独特的特征。随后,这些专家从FFN副本中提取出来,剩余的维度被丢弃。对于每个细粒度专家,其50%的参数被随机重新初始化。这个过程在专家初始化中引入了额外的随机性,可能增强了模型在训练期间的探索能力。

2.2.3 模型配置

Qwen2系列由5种尺寸的模型组成,分别是Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。表1列出了超参数和重要信息,例如预训练的token数量。特别是,Qwen2-57B-A14B是从Qwen2-7B扩展而来。值得注意的是,与Qwen1.5模型相比,Qwen2模型展示了每个标记的显著降低的键值(KV)大小。这一特性转化为内存占用的减少,特别是在长上下文推理任务中特别有利。

在这里插入图片描述

3 预训练

在Qwen2的预训练中,我们的工作重点是改进数据集,并研究有效处理扩展上下文长度的方法。

3.1 预训练数据

Qwen2模型的预训练涉及开发一个新的、大规模、高质量的多语言数据集。该数据集在多个关键领域对以前Qwen和Qwen1.5模型使用的语料库进行了改进,增强了预训练数据的规模、质量和多样性:

  • 质量提升(Quality Enhancement):过滤算法通过额外的启发式和基于模型的方法进行了改进,包括使用Qwen模型过滤掉低质量数据。此外,这些模型还被用于合成高质量的预训练数据

  • 数据扩展(Data Expansion):与Qwen1.5相比(Qwen团队,2024a),我们收集了更大容量的高质量代码、数学和多语言数据,增强了模型在这些领域的能力。这个新数据集支持约30种语言,如英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语和越南语等。

  • 分布改进(Distribution Improvement):为确保模型学习类似于人类学习的分布,我们在小规模的模型上进行实验,优化来自不同来源和领域的数据混合。

基于这些增强,预训练数据从Qwen1.5的3万亿个词元扩展到7万亿个tokens。尝试进一步放宽质量阈值导致了一个12万亿token的数据集。然而,在这个数据集上训练的模型并没有显示出比7万亿词元模型有显著的性能提升。怀疑增加数据量并不一定有益于模型预训练。考虑到训练成本,我们选择使用更高质量的7万亿词元数据集来训练更大的模型,将进一步的探索留给未来的模型迭代。

所有Qwen2密集模型(除了Qwen2-0.5B)都是在超过7万亿词元的大规模数据集上预训练的。Qwen2-0.5B是使用12万亿词元的数据集进行预训练的。MoE模型接受了额外的4.5万亿词元的预训练,符合 upcycling 的原则。与之前的Qwen模型类似,高质量的多任务指令数据被整合到Qwen2的预训练过程中,以增强上下文学习和指令跟随能力。

3.2 长上下文训练

为了增强Qwen2的长上下文能力,我们在预训练的最后阶段将上下文长度从4096增加到32768。这一扩展得到了大量高质量、长篇幅数据的补充。结合这些增强,我们将RoPE的基本频率从10,000调整到1,000,000,以优化长上下文场景中的表现(Xiong等人,2023)。

为了充分利用模型的长度外推潜力,我们采用了 YARN 机制(Peng等人,2023)和 Dual Chunk Attention 双块注意力机制(An等人,2024)。这些策略使模型能够处理长达131072个词元的序列(128k),同时保持高性能,初步实验中几乎没有困惑度降低。

4 后训练

经过大规模的预训练之后,我们对Qwen2进行了后训练阶段。这个过程对于提高模型在包括编码、数学、逻辑推理、指令跟随和多语言理解在内的广泛领域的熟练度至关重要。此外,它确保了模型生成的内容与人类价值观一致,使其有帮助、诚实且无害。与依赖大量人类监督的传统方法不同,我们的方法侧重于可扩展的对齐,最小化人类注释的需求(Cao等人,2024)。具体来说,我们研究了获取高质量的演示和偏好数据的方法,用于有监督的微调(Supervised Fine-Tuning, SFT)和从人类反馈中学习的强化学习(Reinforcement Learning from Human Feedback, RLHF),目的是在最大限度地提高数据质量和可靠性的同时,最小化人类标记的需求。

4.1 后训练数据

后训练数据主要由两部分组成:对齐数据 D = { ( x i , y i ) } D = \{ (x_i, y_i) \} D={(xi,yi)} 和偏好数据 P = { ( x i , y i + , y i − ) } P = \{ (x_i, y^+_i, y^-_i) \} P={(xi,yi+,yi)},其中 x i x_i xi 代表指令, y i y_i yi 代表满意的响应, y i + y^+_i yi+ y i − y^-_i yi 是对 x i x_i xi 的两种响应, y i + y^+_i yi+ 是比 y i − y^-_i yi 更受偏好的选择。集合 D D D 用于SFT,而 P P P 用于RLHF。

训练数据的构建包括两个步骤:

  • 协作数据注释和自动化数据合成。首先,我们从大规模指令语料库中提取数据本体,得到广泛和多样化的高质量指令集合。这些指令经过系统性增强,以包含更大的复杂性。通过人工注释,我们获得了目标响应 y i y_i yi 及其正面和负面标注 ( y i + , y i − ) (y^+_i, y^-_i) (yi+,yi)
  • 随后,采用多种自动化对齐策略,在代码、数学、指令跟随、创作、角色扮演和安全等领域合成了大量人工注释的数据。
4.1.1 协作数据注释
  • 自动本体提取:该过程始于应用InsTag(Lu等人,2024c),一个开放集细粒度标注器,从大规模指令数据集中提取底层本体。随后的手动细化确保了提取本体的准确性。

  • 指令选择:每个带有标注的指令都根据标签多样性、语义丰富度、复杂性和意图完整性进行评估。基于这些标准,我们选择了一组代表性指令(Dong等人,2023)。 在这里插入图片描述
    在这里插入图片描述

  • 指令演化:为了丰富指令数据集,采用了自我演化策略(Tree-Instruct,Zhao等人,2024),促使Qwen模型向现有指令添加约束或要求,从而增加它们的复杂性,并确保数据集中不同难度级别的多样性。
    在这里插入图片描述

  • 人工注释:使用不同的生成策略和不同规模的Qwen模型获得指令的多种响应。注释者根据偏好对这些响应进行排名,确保最佳响应满足既定标准,产生演示和偏好数据。

4.1.2 自动数据合成

为了在大规模上保持响应指令的注释质量,尤其是在需要专业知识、经验、细心或耐心的任务上,我们面临重大挑战。为应对这些挑战,我们设计了多种自动化对齐策略,以大规模合成数据。

  • 拒绝采样(Rejection Sampling):对于数学或类似具有明确最终答案的任务,应用拒绝采样来提高解决方案的质量(不断重复抽样,接受符合条件的,拒绝不符合的,直到达到数量要求)。大型语言模型(LLMs)被用来为每个指令生成多个响应,即推理路径。那些得出准确结论并被模型认为是合理的路径被保留,作为训练数据。偏好数据是通过对比正确和错误的路径生成的。

  • 执行反馈(Execution Feedback):对于coding任务,LLMs被用来生成解决方案和相关的测试用例。通过编译和执行这些解决方案来评估其有效性,从而创建演示和偏好数据。这种方法也适用于评估指令跟随。对于每个具有约束的指令,例如长度限制,LLMs被任务生成一个Python验证函数,以确保响应符合指令要求。

  • 数据再利用(Data Repurposing):在文学写作任务中创建熟练的响应对于没有接受过专门培训的注释者来说是一个挑战。为解决这个问题,我们收集了高质量的公共领域文学作品,并使用LLMs开发具有不同细节级别的指令。这些指令与原始作品配对,作为演示数据。例如,为了编译具有生动有趣响应的角色扮演数据,我们从像维基百科这样的知识库中获取详细的人物档案,并指导LLMs生成相应的指令和响应。这个过程类似于阅读理解任务,确保了人物档案的完整性。

  • 宪法反馈(Constitutional Feedback):Constitutional AI指的是指导LLMs根据预定义的原则集生成响应的过程。为确保遵守如安全和价值观等准则,我们编制了一个宪法数据集。该数据集规定了要遵循和避免的原则。它被用来指导LLMs生成符合或偏离这些准则的响应,作为演示和偏好数据的参考。

4.2 有监督微调(SFT)

我们构建了一个包含超过50万个示例的广泛指令数据集,这些示例涵盖了指令跟随、编码、数学、逻辑推理、角色扮演、多语言能力和安全性等技能。

我们的模型在序列长度为32,768个token的情况下进行了2 epoch 的微调。为了优化学习,学习率从 7 × 1 0 − 6 7×10^{-6} 7×106 逐渐降低到 7 × 1 0 − 7 7×10^{-7} 7×107。为解决过拟合问题,我们应用了0.1的权重衰减(weight decay),并将梯度限制在最大值为1.0。

4.3 人类反馈的强化学习(RLHF)

我们的RLHF训练机制包括两个连续的阶段:离线和在线训练。

在离线训练阶段,我们使用预先编译的偏好数据集P,通过直接偏好优化(Direct Preference Optimization, DPO)最大化 y i + y^+_i yi+ y i − y^-_i yi 之间可能性的差异。

在在线训练阶段,模型利用即时反馈的奖励模型不断改进其性能。具体来说,我们从当前策略模型中采样多个响应,奖励模型选择最受欢迎和最不受欢迎的响应,形成用于每个情节中DPO的偏好对。此外,我们采用在线合并优化器(Online Merging Optimizer)来减轻对齐税,即与人类偏好对齐时模型性能下降的问题。

5 评估

为了全面评估Qwen2模型,包括基础和指令调整模型,我们实施了一套综合评估方案。该方案检查了一系列能力,包括一般知识理解、语言理解、生成、编码、数学、推理以及其他专业领域的能力。具体来说,基础模型通过 few-shot 在大型语言模型(LLMs)的基准数据集上进行评估,除非另有说明。对于指令调整模型,除了基准评估外,我们还优先考虑人类偏好评估。

5.1 基础语言模型

本节展示了Qwen2系列基础语言模型的评估。具体来说,我们在知识和基本能力的基准数据集上评估模型,并应用多语言基准数据集来评估它们对语言的支持。由于有多个模型尺寸,我们将它们与类似或更大尺寸的最先进(SOTA)模型进行比较。

5.1.1 核心能力

基准测试和评估方案:评估基础语言模型的核心能力通常通过在基准数据集上进行评估,使用少量示例或零示例提示。评估主要关注模型在自然语言理解、一般问题回答、编码、数学、科学知识、推理等方面的表现。评估使用的数据集包括MMLU、MMLU-Pro、GPQA、Theorem QA、BBH、HellaSwag、Winogrande、ARC-C、TruthfulQA等。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总体而言,Qwen2 系列在不同模型尺寸上与基线相比展现出更优越的性能。特别是,Qwen2-72B 在所有 Qwen2 模型中表现出最高的性能,突显了模型尺寸扩展的有效性。

5.2 指令微调模型

为了严格评估指令调整模型,我们实施了一个多方面的方法。使用开放数据集和基准测试基础技能和人类偏好进行评估。我们的详细内部考试进一步探究了模型在关键领域的能力。特别关注评估长上下文能力安全措施包括多语言安全评估和红队演习。以下各节详细介绍了评估方法及其结果。

5.2.1 开放基准评估

为了全面评估指令调整模型的质量,我们编制了自动和人类评估,以评估能力和人类偏好。对于基础能力的评估,我们应用了与预训练模型评估中类似的数据集,这些数据集针对自然语言理解、编码、数学和推理。具体来说,我们评估了MMLU、MMLU-Pro、GPQA和Theorem QA等语言理解和知识方面的数据集,HumanEval、MBPP、MultiPL-E和LiveCodeBench v1等编码方面的数据集,以及GSM8K和MATH等数学方面的数据集。此外,我们还通过评估MT-Bench、Arena-Hard、AlignBench、MixEval和IFEval等基准测试,评估了人类偏好对齐和指令跟随的表现。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.2.2 内部自动评估

尽管有许多开放基准数据集用于评估,但我们认为这还远远不足以全面理解大型语言模型(LLMs)的能力。具体来说,我们制作了一系列内部数据集,以评估模型的不同能力,例如知识理解、文本生成、编码等。评估以中文和英文进行。结果分别汇总在表10和表11中。

  • 在中文评估中,我们专注于比较Qwen2模型与Qwen1.5对应模型的性能。对于较小的模型,即使参数数量较少,Qwen2-1.5B-Instruct在几乎所有评估中普遍优于Qwen1.5-1.8B-Chat。在7B模型的比较中,Qwen2的优势更加明显。特别值得注意的是,尽管Qwen1.5-110B-Chat的参数数量大大超过,但Qwen2-72B在性能上仍然优于它。MoE模型在大多数领域相对于Qwen1.5-32B-Chat展现出更优越的性能,除了知识理解之外。这种差异可能归因于预训练词元的数量不足。在不久的将来,我们将继续对MoE模型进行预训练,以发现其扩展行为。在这里插入图片描述

  • 在英文评估中,我们将Qwen2与Qwen1.5和Llama-3进行了比较。同样,Qwen2的较小模型在显著优于Qwen1.5的对应模型。然而,与Llama-3-70B相比,Qwen2-72B-Instruct在理解力和编码能力上略有落后。我们认为预训练阶段的英文词元数量以及后训练阶段的数据量和多样性是导致英文性能差距的原因。在这里插入图片描述

5.2.3 长上下文能力

采用了三种方法来评估长上下文能力:Needle in a Haystack(NIAH,Kamradt,2023年)、NeedleBench(OpenCompass Contributors,2023年)和LV-Eval(Yuan等人,2024年)。

  • Needle in a Haystack (NIAH) :这个实验评估模型在大量文本中准确找出事实的能力。创建了长度为8K,16K,…,128K token的文本,并在不同深度有策略地放置了事实。每个深度区间,例如从0%至10%,包含了两个实例。对于超过32K的上下文,在此评估中应用了YARN机制(Peng et al., 2023)。如图1所示,Qwen2-72B-Instruct在整个128K上下文中检索信息的准确性异常出色。结合其固有的优势,此模型成为处理大量文本的最佳选择,前提是有足够的资源可用。此外,同系列中的其他模型在不同上下文长度下也展现出卓越的性能。具体来说,Qwen2-7B-Instruct能够准确处理高达128K token 的上下文。同时,Qwen2-57B-A14B-Instruct能够有效管理高达 64K token 的上下文,而Qwen2系列中的两个较小模型可以支持 32K token 的上下文。在这里插入图片描述

  • NeedleBench:NeedleBench通过在段落中包含多个事实(两到五个),增加了NIAH的挑战性,需要同时识别和多跳推理。表12显示,YARN和DCA(An et al., 2024)的整合显著提升了Qwen2模型的长上下文能力。Qwen2-7B-Instruct超过了ChatGLM4-9B-1M(Zeng et al., 2024),后者声称有1M上下文长度。此外,Qwen2-72B-Instruct展现出强大的性能,与ChatGLM4-9B-1M相比,其准确率仅下降了6个百分点,而ChatGLM4-9B-1M的下降更为明显,下降了11个百分点,特别是考虑到其初始准确率较低。

  • LV-Eval LV-Eval包含11个不同的问答数据集,要求同时理解多条证据。为了纠正原始度量标准过于严格并导致高比例误报的问题,我们采用关键词召回率作为报告的分数。如表12所示,整合YARN和DCA显著增强了Qwen2模型在LV-Eval上的长上下文能力。Qwen2-7B-Instruct与ChatGLM4-9B-1M达到了一致性,尽管在更长上下文中的下降更为明显。此外,Qwen2-72B-Instruct在所有长度上都展现出强大的性能,证实了其处理长上下文任务的熟练程度。
    在这里插入图片描述

5.2.4 多语言评估

在多语言评估方面,我们执行了全面的人类评估,以检验大型语言模型的多语言能力。具体来说,我们设计了多样化的测试案例,用以评估语言模型在不同语言上的表现。这些测试案例覆盖了多种语言,并且我们邀请了每种语言的专业评估人员进行评估。每位评估人员根据模型的回答,给出1到5分的评分

我们报告了我们的模型和基线模型在不同语言评估中的结果。从表13可以看出,平均而言,Qwen2-72B-Instruct显著优于GPT-3.5-Turbo,并且与GPT-4-Turbo和Claude-3-Opus相比具有竞争力,尽管略逊于后者。这表明我们的多语言预训练和指令调整数据有助于Qwen2-72B-Instruct的多语言能力,使其能够与大多数最先进的专有大型语言模型相媲美。
在这里插入图片描述

5.2.5 安全 & 责任

在安全性和责任方面,我们实施了多语言安全评估,测试了模型在不同语言上的表现,特别是在涉及非法行为、欺诈、色情和隐私等主题上。我们收集了一些可能被用于越狱的提示,并用它们来测试模型是否能够通过拒绝提供安全的回答。

结果显示,Qwen2-72B-Instruct在生成有害回应的比例上优于专有模型GPT-4,并且显著优于开放权重模型Mixtral-8x22B-Instruct。然而,我们认为我们的模型在成为更安全、更负责任的模型方面仍有提升空间,尤其是在色情内容的区分上,这通常即使是对人类来说也是一个难以区分的类别。

在这里插入图片描述

6 结论

本技术报告介绍了Qwen2系列,这是一套多功能的基础和指令调整语言模型,参数范围从0.5b到72b,包括稠密模型和专家混合(Mixture-of-Experts)模型。

Qwen2在语言理解、生成、多语言能力、编码、数学和推理等多个广泛基准测试中,超越了以前的开放权重模型,尤其是其前身Qwen1.5,并显示出与专有模型相媲美的竞争力。在这次更新中,我们特别关注了长上下文、多语言、编码、数学能力以及安全性和责任感。

为了促进社区内的创新和可访问性,我们已经公开提供了Qwen2模型权重,使研究人员和开发人员能够在各种应用和研究项目中充分利用Qwen2的潜力。通过这些努力,我们旨在为人工智能技术的进步及其对社会的积极影响做出贡献。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值