万字长文细说腾讯发布史上最大开源Moe：Hunyuan-Large(详解版，建议收藏)

最新推荐文章于 2025-05-19 10:04:29 发布

大靠山

最新推荐文章于 2025-05-19 10:04:29 发布

阅读量1.4k

点赞数 16

文章标签：语言模型人工智能自然语言处理 python 开发语言

本文链接：https://blog.csdn.net/m0_59235245/article/details/144274808

版权

简介
预训练
数据和分词器
模型结构
预训练
后训练
监督微调SFT
基于人类反馈的强化学习
模型评估
预训练模型评估
后训练模型评估
长上下文能力评估
总结

1 简介

Hunyuan-Large是目前(2024年11月)规模最大的开源Transformer混合专家模型(Moe)。该模型总共拥有3890亿个参数和520亿个激活参数，能够处理长达256K个token的输入。混元官方在各种基准测试上对Hunyuan-Large进行了全面评估，包括语言理解和生成、逻辑推理、数学问题解决、编程、长上下文和综合任务，在这些任务中，Hunyuan-Large都优于LLama3.1-70B，并展现出与规模更大的LLama3.1-405B模型相当的性能。Hunyuan-Large的主要贡献包括:

大规模的数据合成，且比之前文献多出数个数量级
混合专家路由策略
KV缓存压缩技术
专家特定的学习率策略
混合专家模型的scaling laws和学习率适配策略

混元团队表示将发布Hunyuan-Large的代码和checkpoints，以促进未来的创新和应用。

Github地址：https://github.com/Tencent/Tencent-Hunyuan-Large

模型下载：https://huggingface.co/tencent/Tencent-Hunyuan-Large

在线体验：https://huggingface.co/spaces/tencent/Hunyuan-Large

官网地址：https://llm.hunyuan.tencent.com/

以下第二节将详细介绍Hunyuan-Large的预训练阶段，包括数据集、标记器、模型结构和预训练方法。第三节将描述后训练过程，涵盖SFT和RLHF技术的细节。第四节将呈现Hunyuan-Large在预训练和后训练阶段的全面实验结果与深入分析。最后，第五节将总结报告并探讨未来方向。

2 预训练

本节详细描述Hunyuan-Large的预训练细节，包括：(a) 数据和分词器，高质量的数据对模型性能至关重要；(b) 模型结构，涉及KV缓存压缩、专家路由及专家特定学习率缩放策略；© 预训练方法，介绍了具体的预训练schedule以及对MoE scaling law的探索。

2.1 数据和分词器

首先对数据情况进行概述，数据是强大模型的核心，其预处理和数据合成策略直接影响数据的数量和质量。同时，还介绍了将文本数据转换为适合Hunyuan-Large的格式所用的分词器。

图1：Hunyuan-Large预训练中的四个数据合成步骤：（1）指令生成，（2）指令演化，（3）回复生成，（4）回复过滤。

2.1.1 数据处理与合成

首先简要介绍预训练数据的整体情况，然后深入探讨数据合成过程的具体细节，这对于验证模型能力至关重要。

数据概述与处理。预训练的目标是创建高质量、安全且多样化的训练数据集，主要包括中文和英文，以满足实际应用需求。数据经过写作质量、教育价值和潜在有害性等标准的过滤，确保其质量。此外，所有敏感隐私数据和潜在有害数据都进行了匿名化处理。同时，设计了一个精细的标签系统，以灵活调整训练数据集中各类数据的比例。

数据合成。除了现有的自然文本语料库外，还构建了大量合成数据，以弥补通过自然数据学习所产生的能力不足。合成数据的重点领域包括数学、编程、低资源语言及高教育价值内容，作为自然语料库的有效补充，确保数据在质量、多样性和数量上的平衡。

如图1所示，合成高质量指令数据的过程分为四个步骤：指令生成、指令演化、回复生成和回复过滤。

第1步：指令生成。通过使用高质量、知识丰富的数据源，如网页、在线问答、代码库和书籍，生成涵盖不同领域和复杂度的多样化指令。
第2步：指令演化。根据三个原则对指令进行优化：
(a) 提高清晰度和信息量；
(b) 通过自我指导(self-instruct)扩展低资源领域的指令；
© 提升指令的难度。这些优化后的高质量指令帮助模型更高效地从合成数据中学习。
第3步：回复生成。使用多种专门设计的模型为演化后的指令生成准确、信息丰富的回复。这些模型的规模各异，设计精良，能够为各个领域的指令生成专家级的响应。
第4步：回复过滤。通过评判模型和自我一致性检查，过滤掉不一致或低质量的指令-回复对，确保预训练数据的高质量。

2.1.2 tokenizer

tokenizer(简单理解为分词器)在高效预训练和推理中起着关键作用，需要在高压缩率和足够大的词汇量之间取得平衡。Hunyuan-Large采用了12.8万个token的词汇集，结合了tiktoken词汇表（100k个token）与为增强中文能力而设计的28k个专门token。与LLama3.1的分词器相比，新的分词器在压缩率上表现更优，从2.78提升至3.13字符/token。

2.2 模型结构

Hunyuan-Large采用了先进的模型结构和训练策略，提升了大规模语言模型的性能。首先介绍了模型的架构和超参数，然后深入探讨了KV缓存压缩、专家路由策略以及专家特定学习率缩放的技术细节。

2.2.1 Hunyuan-Large概述

Hunyuan-Large的模型结构主要遵循经典的MoE架构，使用多个专家替代传统Transformer中的全连接层（FFN）。Tokens会分配给不同的专家，训练时只有少量专家被激活。Hunyuan-Large中涵括共享专家和特定专家，采用了Rotary Position Embedding（RoPE）进行位置编码，使用SwiGLU作为激活函数。表1展示了Hunyuan-Large的模型架构和关键超参数概览。

表1:Hunyuan-Large的架构和关键超参数概览。该模型拥有3890亿个参数，激活参数为520亿。对于每个输入标记，模型会激活1个共享专家和1个特定专家，从而有效地利用专家混合机制进行训练和推理。

2.2.2 KV缓存压缩

为减轻KV缓存的内存压力并降低推理成本，集成了两种经典的KV缓存压缩策略：(a) 分组查询注意力Grouped-Query Attention(GQA)，通过将多个KV heads分组，从head层面压缩KV缓存；(b) Cross-Layer Attention (CLA)，通过在相邻层共享KV缓存，从层级层面压缩KV缓存。

在Hunyuan-Large模型中，GQA设置为8组KV heads，并且每两层共享一次KV缓存，实现了性能与效率之间的平衡。表2展示了不同注意力机制下KV缓存的内存使用情况。通过采用GQA和CLA技术，Hunyuan-Large相比于原始的MHA机制节省了近95%的KV缓存，显著提升了推理效率，同时对模型性能的影响极小。

表2：不同注意力机制下KV缓存内存使用情况的比较（以bf16为单位）。注意力机制包括Multi-Head Attention (MHA)、Grouped-Query Attention (GQA)、Multi-Query Attention (MQA)、Cross-Layer Attention (CLA)和GQA+CLA(Hunyuan-Large的最终设置)。其中，、、和分别表示注意力头数、每头维度、层数和GQA中的组数()。CLA策略中，每两层共享一次KV缓存。

2.2.3 专家路由策略

共享专家和特定专家。专家路由策略在MoE（混合专家）模型中至关重要，能有效激活每个专家的能力并保持负载平衡。传统的路由策略，如经典的top-k路由策略，为每个token选择得分最高的k个专家。Hunyuan-Large采用了混合路由策略，结合了一个共享专家和多个特定专家。共享专家负责捕获所有token所需的通用知识，而特定专家则通过经典的top-k路由策略动态激活，学习领域特定知识。具体地，1个专家被设定为共享专家，捕获通用知识，16个特定专家则根据**每个token的分数动态激活最合适的特定专家(最终也是激活一个特定专家)**。

循环路由。传统的top-k路由通常与一个容量因子配合使用，该因子定义了MoE中每个专家的最大负载，在训练期间会丢弃超载专家的token。较大的容量因子导致丢弃的token较少，但训练效率降低。过多token丢弃可能会导致关键信息的丢失，从而对训练稳定性产生负面影响。为了缓解传统top-k路由中因超载专家导致的token丢弃问题，开发了一种新的循环路由策略，如图2所示。该策略将原本路由到超载专家的token随机重新分配给其他未超载的特定专家，优化了训练效率，并减少了关键信息的丢失，确保训练的稳定性和有效性。

图2:Hunyuan-Large中循环路由策略的示例，其中每个专家的最大容量设置为2。最初分配到超载的专家1的标记D被重新分配到随机选择的专家4。这种方法有助于缓解潜在的有价值信息丢失。在传统路由策略中，来自超载专家的标记将被丢弃，如(a)所示。然而，Hunyuan-Large的策略是将这些标记随机重新分配到其他专家，如(b)所示，标记D被路由到专家4。

2.2.4 专家特定学习率缩放

在Hunyuan-Large中采用AdamW作为优化器。为加快训练速度，可在预训练过程中随着批量大小的增大而加大学习率。此前的研究探索了基于SGD优化器在batch size增大时的最佳学习率缩放策略，例如平方根缩放或线性缩放。近期的研究进一步阐明了在大型语言模型中，Adam类优化器的最优学习率与批量大小之间的关系更加合理。根据Li等人（2024a）的研究，当批量大小为时，其最优学习率ϵ的计算方式如下：

其中，ϵ表示AdamW的学习率，表示训练速度和数据效率之间的权衡点。

在Hunyuan-Large模型中，不同专家在训练时所处理的token数量存在不平衡(例如，将共享专家与其他特定专家相比较)。每个专家在单次迭代中处理的token数量不同，意味着每个专家实际上经历了不同的有效批量大小。因此，针对不同专家采用特定学习率成为优化训练效率的关键。基于负载均衡损失的假设，不同特定专家所处理的有效token数量大致相似。具体而言，对于特定专家，其有效批量大小应当被专家数量n除，因此最优学习率可表示为ϵ。在激活16个特定专家中的1个时，n=16。共享专家与特定专家之间的学习率缩放比约为ϵϵ，在当前设置中约为0.31。

因此，在配置Hunyuan-Large的学习率时，给共享专家分配最优学习率ϵ，并按照该比例ϵϵ相应缩小特定专家的学习率。

2.3 预训练

大语言模型的预训练效果不仅取决于数据集和模型结构，还在很大程度上受益于通过经验积累形成的预训练方法。首先，探讨MoE（混合专家）模型的scaling law用作模型设计的指导原则。接下来，详细介绍渐进式和长上下文预训练过程，进一步提升了大语言模型的能力。

2.3.1 MoE的scaling law

首先，对MoE模型的scaling law进行深入研究，以确定最佳配置并在预训练前获得洞见。通常，对于密集模型，训练计算量的预估遵循公式C = 6ND，其中N是参数数量，D是训练token数。然而，对于使用较长序列（如8K、32K和256K）的MoE模型，由于注意力复杂度和稀疏激活的影响，计算预算公式有所不同。经过精确计算，确定了MoE模型的计算预算C，其中N代表激活参数数量，具体计算过程为：

借鉴Kaplan等人（2020）和Li等人（2024a）的研究发现，批量大小B对训练期间的计算预算C有显著影响。为了剔除这种影响并得到准确的估算，采用了关键批量，能够在时间和计算效率之间实现最佳平衡，进而得出最小计算预算：

随后，使用1000亿个token的预训练数据，训练了一系列激活参数在1000万到10亿范围内的MoE模型。利用isoFLOPs曲线，在有限计算预算下，结合实际训练token批量大小，探索了从100亿到1000亿token的数据规模，确定了最佳激活参数数量与训练数据量。

通过拟合图3中的公式α，确定了和α，表明最佳激活参数数量约为581亿(即58.1B)。受Dubey等人（2024）的启发，考虑到最优值附近二次曲线的平滑性，最终选定520亿作为模型的激活参数数量。

此外，通过拟合图4中的公式β，得出和β，估算出最佳训练token数量约为5.6万亿。基于相同的曲线平滑原理，并为最大化训练数据的利用率和模型效果，最终选择约7万亿token进行预训练。这些分析确保了Hunyuan-Large在最佳成本效益下达到最优性能，同时为未来MoE模型的开发奠定了坚实基础。

在这里插入图片描述

2.3.2 学习率调度

有效且稳定的训练依赖于合理的学习率调度。Hunyuan-Large的学习率调度分为三个阶段：初始预热阶段、渐进式衰减阶段以及最后的短暂退火阶段。

渐进式衰减阶段的优势在于平衡解空间的探索与最优解的收敛。在初始阶段，较高的学习率有助于模型探索不同的解空间区域，避免过早收敛至次优解。随着训练的深入，逐步降低学习率可引导模型有序逼近最优解。

在预训练token的最后5%阶段，学习率被降低至峰值的十分之一，进入简短的退火阶段。这一阶段的精细调整不仅提高了模型的泛化能力，还通过优先使用最高质量的数据集，进一步提升了模型的最终性能。

图4展示了基于与图3相同的拟合策略，推导出不同最小计算预算下最优训练数据规模的缩放规律。

2.3.3 长文本预训练

在退火阶段之后，Hunyuan-Large进一步进行长文本（最长256K个token）的预训练，提升其处理长文本的能力。具体而言，长文本预训练分为两个阶段，逐步增加token长度，从32K到256K。采用RoPE（旋转位置编码）实现位置嵌入，并在256K预训练阶段将RoPE基频扩展到10亿。

在数据方面，仅使用来自书籍和代码的自然长文本数据(占语料库近25%)，并将其与普通长度的预训练数据(近75%)混合，形成长文本预训练语料库，这与Gao等人(2024)观察到的结论相似。研究还发现，大语言模型获得长文本处理能力并不需要太多训练。在32K和256K阶段，各使用约100亿token的长文本预训练语料库。每个阶段的长文本预训练都能达到令人满意的长文本处理能力，同时保持在正常长度任务上的良好性能。

3. 后训练

基于Hunyuan-Large的预训练模型，进一步开展旨在增强特定任务能力并使大语言模型与人类偏好保持一致的后训练阶段。该阶段包含监督微调(SFT)和基于人类反馈的强化学习(RLHF)，这些训练基于精心选择的数据集和当前策略模型的输出。以下小节包含(a)SFT的数据选择、预处理和训练过程；(b)RLHF中直接偏好优化(DPO)的技术和训练策略。

3.1 监督微调SFT

SFT的性能强烈依赖于与各类大语言模型能力相关的指令数据质量。在SFT中，重点关注确保Hunyuan-Large后训练有效性的详细数据收集和处理方式，以及SFT的训练设置。

3.1.1 SFT数据概述

SFT的核心目标是基于相应精选数据进一步提升多个关键能力的表现。这些能力主要包括数学、编程、逻辑推理、基于知识的问答、智能体行为、文本生成、自然语言处理理解、工业应用、角色扮演、长文本处理等。提升这些能力不仅使模型能够更好地适应实际应用，还能更好地满足用户在多种场景下的多样化需求。同时，高度重视数据安全，努力确保模型在大多数情况下与人类价值观保持一致。整体SFT数据量超过100万条。

3.1.2 数据收集和处理

SFT数据收集和处理的关键技术主要包括指令提取、指令泛化、指令平衡和数据质量控制。

指令提取：为了增强指令集的广度和多样性，专门为数学、逻辑推理和基于知识的问答等领域开发了指令提取模型，其主要目标是从公开数据源(如网页、百科等)中有效提取适合指令调优的数据。提取的数据包括指令和相应的参考答案。开发了多个专门的模型作为指令提取器。在这些模型的帮助下，成功从公开数据中提取了大量自然指令。这些指令作为种子，对提升最终模型的泛化性能和多样性起到关键作用。
指令泛化：提出了一种指令泛化方法，以获得更多样和复杂的大量指令。具体而言，设计并训练了一个指令泛化系统，能够在逐步提高难度和复杂度的同时泛化目标指令。该系统的核心在于通过合成简单指令和复杂指令之间的大量映射来训练模型。此外，构建了一个结构完善的指令分类体系及其相应的分类模型，旨在分析和平衡SFT数据中各类指令的分布。借助这个指令分类体系，指令泛化系统可以针对特定薄弱指令类型补充原始数据。
指令平衡：通过指令提取和泛化过程，累积了超过1000万条指令。指令平衡对提升模型在各种场景下的表现至关重要。然而，许多生成的指令具有非常相似的语义含义，且指令类型分布自然不均衡。为了在保持指令分布平衡的同时提升指令复杂度，为每条指令添加标签。这些标签涵盖多个维度。通过细致的标签标注，可以更准确地理解和分析指令集的特征。通过在SFT过程中确保不同类型指令的充足数量和均衡分布，能有效缓解特定指令类型的过拟合或欠拟合问题，从而提升模型在多样化应用场景中的泛化能力和适应性。
数据质量控制：SFT数据的质量是取得卓越性能的基础。主要采用以下三种方法来确保SFT数据的高质量：
基于规则的过滤：发现SFT数据中存在数据截断错误、重复、乱码和格式错误等常见问题。因此，开发了一套基于规则的数据过滤策略，以防止上述指令提取和生成模型产生不良输出。
基于模型的过滤：为了从大量合成的指令数据中自动提取高质量的SFT数据，基于Hunyuan系列700亿参数的密集模型训练了一个评判模型(McAleese等人，2024)。该模型为每个指令样本分配四级质量分数，评估生成响应的准确性、相关性、完整性、实用性和清晰度等方面，以及其他可能的数据质量问题。
基于人工的过滤：在模型训练之前，经过基于规则和基于模型过滤的SFT数据还需经过人工标注，确保答案符合预期的特定任务响应模式，避免引入额外的低质量问题。

3.1.3 训练细节

在SFT中，基于高质量数据(超过100万条)对预训练模型进行总共3轮微调。学习率从2e-5衰减到2e-6。为了减轻SFT期间的过拟合，使用0.1的注意力dropout和0.2的隐藏层dropout。研究发现，与密集模型相比，Hunyuan系列的MoE架构能从合适的dropout率中获得更多收益。

3.2 基于人类反馈的强化学习

为了使Hunyuan-Large与人类偏好保持一致，使用DPO进一步训练SFT模型。采用集成离线和在线训练的单阶段训练策略，这种策略展现出优越的可控性和整体性能。在这种集成方法中，利用偏好数据集来增强可控性，同时利用当前策略模型为每个提示生成多个响应，并使用奖励模型选择最受欢迎和最不受欢迎的响应。

为了增强训练稳定性，在选定的响应上加入SFT损失项。这一添加通过防止所选响应的对数概率下降，这有助于帮助稳定DPO训练。此外，实施指数移动平均策略来缓解奖励欺骗问题并减少对齐税(alignment tax)，确保在更大数据集上实现更稳定的训练过程。

4 模型评估

为了展示Hunyuan-Large的有效性，进行了广泛的评估。以下实验集中在预训练语言模型（第4.1节）和后训练语言模型（第4.2节）在多种中文和英文任务上的表现，包括数学与推理、代码、阅读理解、常识、长文本上下文处理以及综合任务等。无论是预训练还是后训练阶段，Hunyuan-Large在这些任务中都取得了优异的表现。

4.1 预训练模型评估

本节将介绍Hunyuan-Large预训练模型在多个广泛使用的基准测试中的表现，以验证其基础能力。

4.1.1 基准测试和实验设置

主要基准测试。Hunyuan-Large的能力通过多种任务基准进行评估，涵盖常识理解、机器阅读理解、问答、数学与推理、代码以及综合任务，测试语言包括中文和英文。具体选择了MMLU、MMLU-Pro、BBH、CMMLU和C-Eval作为综合评估基准。常识理解能力使用HellaSwag、CommonsenseQA和WinoGrande进行评估，物理常识评估则采用PIQA。此外，DROP、C3和NaturalQuestions用于评估模型在经典NLP任务（如问答和阅读理解）上的能力。ARC-C和TriviaQA用于涉及科学背景知识和实时世界知识的问答任务，而GSM8k、MATH和CMATH用于评估数学能力，HumanEval和MBPP则用于测试代码能力。这些基准覆盖了大模型能力的核心领域。

评估设置及对比模型。实验遵循常规评估设置（如评估指标及不同基准的样本数）。具体而言，TriviaQA、PIQA、C3和HumanEval评估采用零样本，BBH、MBPP、DROP、CMATH使用3样本，GSM8K、MATH使用4样本，MMLU、MMLU-Pro、C-Eval、CMMLU、WinoGrande、NaturalQuestions采用5样本，CommonsenseQA使用7样本，HellaSwag使用10样本，ARC-C使用25样本。Hunyuan-Large的表现与同类或更大规模（激活参数量）的先进Dense和MoE预训练模型进行了比较，包括LLama3.1-70B、Mixtral-8x22B、DeepSeek-V2和LLama3.1-405B。对比中选取了公开可得的最佳分数或复现的基线结果，确保了公平性。

4.1.2 预训练模型表现

表3展示了Hunyuan-Large与其他主流预训练模型的对比结果。总体来看，Hunyuan-Large在多个基准测试中表现优越，尤其在MMLU等综合任务上，不仅超越了LLama3.1-405B，还以显著较少的激活参数量实现了3.2%的提升。在常识理解与推理、经典NLP任务（如CommonsenseQA、PIQA和TriviaQA等）上，Hunyuan-Large同样表现突出。在数学评估中，Hunyuan-Large在GSM8K和MATH上超越了所有基线模型，并在中文CMATH上取得最佳成绩。同时，在代码任务（如HumanEval和MBPP）上，Hunyuan-Large也位居领先行列。进一步分析显示，其在所有中文任务（如CMMLU、C-Eval）中也表现优异。

在这里插入图片描述

Hunyuan-Large的全面提升可归因于以下几个关键因素：(a) 高质量的预训练数据，结合合成数据技术，提供了模型能力的坚实基础；(b) 优化的模型结构，利用循环路由机制及专家特定学习率调整，提升了共享模块和专用专家模块的学习效率；© 预训练过程的改进，借鉴多项前沿研究，提出了更有效的MoE预训练方案，实现了更智能且稳定的训练。此外，长文本上下文预训练使得Hunyuan-Large能够处理长度高达256K的序列。

4.2 后训练模型评估

以下展示Hunyuan-Large的后训练模型Hunyuan-Large-Instruct在多个基准测试中的表现，以验证其在不同大模型能力上的有效性。

4.2.1 基准测试和实验设置

后训练模型的评估基准与部分预训练评估数据集一致，主要侧重于机器阅读理解、问答、常识推理、数学、代码及综合任务，涵盖中文和英文。评估设置遵循标准的评估指标和样本数，以确保结果的公平性。对比模型选择了LLama3.1-405B-Instruct、LLama3.1-70B-Instruct、Mixtral-8x22B-Instruct和DeepSeek-V2.5-Chat，这些模型在规模和激活参数量上与Hunyuan-Large-Instruct相近，属于当前领域内的代表性强大Dense或MoE模型。评估过程中报告了公开可得的最佳结果或复现的基线结果。

4.2.2 后训练模型表现

表4展示了Hunyuan-Large-Instruct与其他后训练模型在多个公开基准测试中的对比结果。Hunyuan-Large-Instruct在大多数任务上均表现出明显优势，尤其是在MMLU和MATH等数据集上有出色表现。特别是在MMLU数据集上，Hunyuan-Large-Instruct相较LLama3.1-405B提升了2.6%，这表明其在语言理解和推理任务中具有更强的表现力。在MATH数据集上，模型的表现同样优异，超越了LLama3.1-405B 3.6个百分点。这种显著的提升是在仅使用52亿激活参数的情况下实现的，展示了模型的高效性和优越性。

为了进一步验证Hunyuan-Large-Instruct的综合能力，还在AlignBench、MT-Bench、IFEval strict-prompt、Arena-Hard和AlpacaEval-2.0等多个基准上进行了测试，结果如表4所示。（1）AlignBench评估模型输出与人类意图对齐的能力，特别关注模型准确遵循指令的能力；（2）MT-Bench则衡量模型在人类专家偏好下的表现；（3）IFEval严格提示基准测试模型在特定上下文中精确遵循指令的能力；（4）Arena-Hard基准通过不断更新的提示，确保模型能力与现实世界的实际需求保持一致，避免过拟合；（5）AlpacaEval-2.0则自动评估模型的指令跟随能力。在这五个基准测试中，Hunyuan-Large-Instruct均取得了领先，展现了卓越的综合能力。

Hunyuan-Large-Instruct的出色表现可以归因于以下几个方面：首先，强大的预训练模型为其奠定了坚实的基础；其次，模型通过高质量的SFT（监督微调）和DPO（对比学习优化）数据进一步提升了能力；最后，四步数据收集和处理流程的精心设计，确保了数据的高质量和多样性。此外，精心设计的SFT和DPO训练策略也为模型的性能提升提供了保障。

4.3 长上下文能力评估

Hunyuan-Large-Instruct的长上下文处理能力评估采用了两个广泛认可的开源基准测试：RULER和LV-Eval，同时引入自研的长上下文基准测试PenguinScrolls进行补充比较。评估过程选择了LLama3.1-70B-Instruct作为强基线模型，因其在处理长上下文方面的能力已得到充分验证。

4.3.1 开源长上下文基准测试及评估

RULER。RULER涵盖检索、多跳推理、聚合和问答等多种任务类别，每个任务跨越不同上下文长度，提供了灵活且全面的评估框架。如表5所示，Hunyuan-Large-Instruct在各种长度的上下文中均保持稳定的高性能，特别是在64K到128K tokens范围内显著超越基线模型，展现出随上下文长度增加性能衰减最小的特点。

LV-Eval。LV-Eval作为一个富有挑战性的长上下文基准测试，包含11个不同的问答数据集，用于测试模型在不同上下文长度和复杂场景（包括相互矛盾的事实）下的表现。为应对原始指标过于严格导致的高假阴性率，评估采用LLM作为评估者，提供更准确的性能反映。如表5所示，Hunyuan-Large-Instruct在所有长度区间内持续超越LLama3.1-70B-Instruct。

4.3.2 内部评估：PenguinScrolls

针对现有基准测试中缺乏真实世界内容多样性以及多语言和多轮对话数据等不足，PenguinScrolls基准测试应运而生。该基准致力于优化大语言模型的长文本处理能力，使评估指标更贴近用户对LLM性能的实际感知。

PenguinScrolls的主要特点包括：(1) 文档多样性：囊括财务报告、法律文件和学术论文等广泛的自然长文本，支持最长128K tokens的上下文；(2) 细粒度任务类型：设计不同难度的多层次任务，构建基于长上下文处理能力的综合任务分类体系；(3) 多轮对话数据：通过模拟真人提问构建真实的长上下文多轮对话场景；(4) 多语言支持：提供中英文数据以满足多语言应用需求。

PenguinScrolls涵盖信息提取、信息定位、定性分析和数值推理四类任务。如表6所示，Hunyuan-Large-Instruct在这些任务上全面优于LLama3.1-70B-Instruct。内部用户研究证实，PenguinScrolls的改进与实际用户体验提升高度相关。该基准测试将适时发布，以推动长上下文研究和开发的进步。

5 总结

本技术报告介绍了当前最大、性能最优的基于Transformer架构的MoE模型——Hunyuan-Large。该模型拥有3890亿个总参数和520亿个激活参数，支持高达256K的上下文长度。大量评估结果表明，Hunyuan-Large在数十个基准测试中表现卓越，充分展现了其在语言理解、生成、推理、数学、编程、长上下文处理及综合任务方面的强大能力。模型的优异表现源于高质量的训练数据（包括数据合成）、卓越的模型结构以及在预训练和微调阶段采用的复杂训练方法。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述