书生浦语第二期第一节课笔记

lengbaihang

已于 2024-03-30 09:12:52 修改

阅读量172

点赞数 1

分类专栏：书生浦语第二期文章标签：笔记语言模型深度学习人工智能 python

于 2024-03-29 13:03:12 首次发布

本文链接：https://blog.csdn.net/lengbaihang/article/details/137141825

版权

书生浦语第二期专栏收录该内容

14 篇文章 0 订阅

订阅专栏

本文介绍了由上海AI实验室和商汤集团开发的InternLM2语言模型，探讨了其创新的预训练和优化技术，如GQA和COOLRLHF，以及开源历程和应用。模型在处理长序列和工具调用方面表现出色，为开发者和企业提供全面支持。

摘要由CSDN通过智能技术生成

        本文首先对 InternLM2 进行了概述，这是一款由上海 AI 实验室、商汤集团联合多家顶尖大学研究团队开发的大型语言模型。该模型的出现对于 Python、PyTorch、HuggingFace 等主流 AI 开发生态的用户来说是一大福音。InternLM2 不仅提供了一套全新的模型，还详细阐述了其背后的创新预训练和优化技术，包括针对文本、代码和长文本数据的高效处理方法，以及捕捉长期依赖关系的高级技巧。这些技术的应用使得广大研究者和开发者能够更容易地上手，甚至在此基础上进一步创新。
        本文还介绍了 InternLM2 的一些关键技术，包括拓展 LLM 的上下文长度的方法、群组查询注意力（GQA）、位置编码外推等。这些技术都是为了解决传统 Transformer 模型在处理长序列时遇到的计算成本和内存需求过大的问题。其中，GQA 技术通过将输入序列的查询部分分成若干小组，每组内的查询只关注序列中特定的键和值，而不是整个序列。这种方法通过避免对整个序列的全面注意力计算显著减少计算复杂度和内存占用。位置编码外推则是指在自然语言处理中，特别是在处理长文本时，扩展大型语言模型的上下文窗口能力，使其能够处理比训练阶段更长的文本序列。
        本文还提到了对齐技术 COnditional OnLine RLHF（COOL RLHF）和近端策略优化（PPO）。COOL RLHF 是一种在传统的 RLHF 中，处理多种人类偏好时通常需要依赖多个奖励模型的方法。而 PPO 则是一种在强化学习领域广泛使用的算法，旨在找到一种平衡，使得算法能够尝试新的策略行为，但不至于因为太过激进的策略更新而导致学习过程崩溃。
        最后,本文还介绍了 InternLM2 的基础训练架构 InternEvo 框架。该框架通过混合并行和冗余分片技术，实现了对长序列的大型语言模型的高效训练。

        在分析了 InternLM2 的关键技术之后，本文还介绍了其开源历程和应用。自从去年六月首次亮相以来，书生浦语大模型就不断经历快速迭代。紧接着在七月，它对千亿参数的大模型进行了全面升级，新增了对 8K 语境和 26 种语言的支持。此外，还推出了一个全免费商用的 7B 级别的开源模型以及一整套全链条工具。到了八月，书生浦语发布了书生万卷 1.0 版的多模态预训练语料库。随后，它还推出了升级版的对话模型和智能体框架 Lagent，这使得从语言模型到智能体的升级转换成为可能。直到今年一月开源了 InternLM2，实现了国产模型的突破。
        InternLM2 在评测中全方位领先同尺寸模型，同时具备人文关怀和内建工具调用和计算能力。从模型到应用，本文给出了一个模型选型的关键图，强调了挑选与业务场景契合的模型，以便进行深入评估和分析。面对复杂的业务需求，有时候需要对选定的模型进行微调，这可能包括根据计算资源的可用性对模型的全部或部分参数进行优化。此外，还需考虑模型是否需要与缓压系统交互，如有必要，则需进一步开发智能体以支持这种交互。在模型正式上线前，进行彻底的评测是不可或缺的，这一步骤确保了模型在实际应用场景中能达到预期的性能标准。通过这些评测步骤后，接下来是模型的部署和上线，这需要编写相应的代码并选用恰当的工具来完成部署过程中的各个环节。
在所有的这些场景中，书生体系都有布局并且免费开源。这套工具覆盖了从数据处理到模型应用的全过程，包括数据收集、预训练、微调、部署、评测以及最终的应用等多个关键环节。具体可以观看直播讲解，这里给出整个链路工具的链接地址，方便读者查阅：
- 书生万卷：[opendatalab/WanJuan1.0](https://github.com/opendatalab/WanJuan1.0)
- InternLM-Train：[InternLM/InternLM](https://github.com/InternLM/InternLM)
- 微调：[InternLM/xtuner](https://github.com/InternLM/xtuner)
- 部署：[github.com/InternLM/lmdeploy](https://github.com/InternLM/lmdeploy)
- 评测：[OpenCompass](https://opencompass.cn/)
- 应用：[InternLM/lagent](https://github.com/InternLM/lagent)
        通过这些开源工具和模型，书生浦语大模型为研究者、开发者和企业提供了一个全面的支持平台，使得他们能够轻松地使用和定制大型语言模型，以应对各种复杂的应用场景。

论文解读：
1. **InternLM2语言模型的介绍**：
- 实现了比之前开源语言模型更好的性能，在6个维度、30个基准测试中取得了领先的成绩。
- 通过创新的预训练和优化技术，实现了对长上下文建模的支持，能够高效捕获长期依赖关系。
- 初始预训练阶段使用4k token，之后扩展到32k token，在200k“needle-in-a-haystack”测试中表现出色。
- 采用监督微调和条件在线强化学习策略，有效处理了人类偏好冲突和奖励欺诈问题。
2. **预训练细节**：
- 包括详细的文本数据、代码数据、长文本数据准备流程，提供了全面的预训练数据准备指导。
- 预训练阶段分为4k、32k上下文训练，以及能力增强训练。
3. **对齐细节**：
- 监督微调(SFT)使用10M指令数据。
- 提出条件在线强化学习(COOL RLHF)，使用条件奖励模型和在线多轮策略，能够协调不同偏好并减轻奖励欺诈。
- 长上下文微调使用书籍和代码仓库数据。
- 引入工具增强语言模型。
4. **评估和分析**：
- 在综合考试、语言知识、推理数学、多语言编程、长上下文建模、工具利用等任务上进行了评估。
- 主观评估显示InternLM2系列模型与人类偏好高度一致。
- 数据污染讨论表明InternLM2数据质量较高。
5. **结论**：
- InternLM2作为高质量的开源语言模型，在性能上取得了领先，为研究提供了重要的经验。
- 详细阐述了预训练数据准备、模型训练等过程，对训练更大数据量的模型提供了重要参考。
- 创新的强化学习训练技术有效改善了模型的对齐效果。

InternLM2模型的一些重要细节如下：
1. **模型规模**：InternLM2系列模型包括1.8B、7B和20B三种规模，采用Transformer结构，包含数十亿到数百亿参数。
2. **预训练数据**：该模型使用了超过2万亿高质量token的数据集进行预训练，数据来源于网页、书籍、论文、专利等，包括中文和英文内容。
3. **长上下文建模**：为支持长文本建模，模型采用了Group Query Attention (GQA)机制，以减少计算复杂度。预训练阶段包括4k和32k token上下文训练。
4. **对齐训练**：模型采用了监督微调(SFT)和条件在线强化学习(COOL RLHF)策略进行对齐训练，以使其更好地遵循人类指令和偏好。
5. **性能表现**：在综合考试、语言知识、推理、数学、编程、长上下文建模等任务上，InternLM2取得了领先成绩。主观评估也显示其与人类偏好高度一致。
6. **数据准备**：提供了详细的预训练数据准备流程，包括文本、代码和长文本数据的处理，为训练语言模型提供了重要参考。
7. **工具利用**：模型通过修改ChatML格式来支持工具调用，从而可以与外部工具和API交互，提高解决问题的能力。
8. **开源发布**：不同规模的InternLM2模型以及训练过程中的不同阶段模型已开源发布，供社区分析和进一步研究使用。

lengbaihang

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
书生浦语第二期第一节课笔记

5. **性能表现**：在综合考试、语言知识、推理、数学、编程、长上下文建模等任务上，InternLM2取得了领先成绩。2. **预训练数据**：该模型使用了超过2万亿高质量token的数据集进行预训练，数据来源于网页、书籍、论文、专利等，包括中文和英文内容。8. **开源发布**：不同规模的InternLM2模型以及训练过程中的不同阶段模型已开源发布，供社区分析和进一步研究使用。6. **数据准备**：提供了详细的预训练数据准备流程，包括文本、代码和长文本数据的处理，为训练语言模型提供了重要参考。
复制链接

扫一扫