书生·浦语大模型课程笔记及InternLM2技术报告笔记

 一、书生·浦语大模型课程笔记

下面是书生·浦语大模型课程的第一节课课程笔记,由上海人工智能实验室青年科学家陈恺老师授课,主要介绍了大模型的发展,作用

1.大模型的发展

大模型成为热门的关键词,包含LLM的论文从2020年以后获得了指数级别的增长,大模型也从专用模型(针对特定任务的模型,一个模型解决一个问题)逐渐发展为通用模型(一个模型就可以应对多种任务,多种模态)

2. 书生·浦语大模型系列介绍

2024年1月17日,InternLM 2 开源

3. 从模型到应用的流程

首先从业务场景的复杂程度对模型进行一个评选,若业务场景不复杂则可以直接进行模型的评测,评测完成后可以直接部署模型,若业务场景复杂,则先要考虑算力是否足够问题,若算力不足则要进行部分参数的微调工作,若算力充足则可进行续训和全参数微调工作,下一步是考虑是否要和已有的业务进行交互,是否要对接已有业务的数据库,进一步对是否构建基于大模型的智能体进行估计,目的是为了让大模型在业务场景中有更好的表现,最后进行模型的评测和部署工作

4. 模型应用过程中的工具及框架介绍

数据:书生·万卷——2TB数据,涵盖多种模态与任务    OpenDatalab开放的数据平台

预训练:InternLM-Train——并行训练,极致优化。   特点:高可拓展、极致的性能优化、兼容主流、开箱即用

  • 微调:XTuner——支持全参数微调,支持LoRA等低成本微调,适配多种生态,适配多种硬件

        微调又分为 :

                增量续训:让基座模型学到新的知识,如某个垂类领域的知识。

                                   训练数据:文章、书籍代码等

                有监督微调:让模型学会理解和遵循各种指令,或者注入少量领域知识。

                                    训练数据:高质量对话、问答数据

部署:LMDeplory——支持全链路部署流程,每秒生成2000+ tokens

评测:OpenCompss——全方位的评测,目前应用于很多企业的大模型评测

应用: Lagent框架 /AgentLego工具箱——支持多种智能体,支持代码解释器等多种工具

二、InternLM 2 技术报告笔记

InternLM2是一款开源的大型语言模型,其性能在综合评估、长文本建模以及开放式主观评估等多个维度上均超越了其前辈模型。通过创新的预训练和优化技术,InternLM2能够处理包括文本、代码和长文本数据在内的多种数据类型,有效捕获长期依赖关系。InternLM2的特点或者说区别于其他模型的优势在于显著扩展了LLM的上下文处理能力。相比于Claude 2和GPT-4这样的先进模型,其支持的上下文长度分别只有100k和32k,InternLM2将这一能力大幅提升,实现了200k的惊人上下文长度。此项技术突破主要得益于两大核心创新:InternEvo框架和COOL RLHF机制。

什么是InternEvo?

InternEvo框架是InternLM2在其技术报告中介绍的一个高效且轻量级的预训练框架,专为模型训练设计,能够支持在数千个GPU上扩展模型训练。InternEvo框架的关键特点和优势包括:

  1. 并行化策略:InternEvo通过结合数据并行(data parallelism)、序列并行(sequence parallelism)和流水线并行(pipeline parallelism)等多种并行策略,实现了高效的模型训练。这些并行化技术可以充分利用大规模计算资源,加速训练过程。

  2. 内存效率:为了提高GPU内存利用率,InternEvo集成了多种零冗余优化器(Zero Redundancy Optimizer, ZeRO)策略,显著减少了训练过程中所需的内存占用。这使得训练更大的模型或更长的序列成为可能。

  3. 硬件利用优化:InternEvo采用了FlashAttention技术和混合精度训练(使用BF16),进一步提高了硬件利用率和训练效率。

  4. 强大的扩展性:InternEvo展现了出色的强扩展性(strong scaling performance),即在增加GPU数量时能够保持高效的训练性能。在训练InternLM2的过程中,即便是在1024个GPU上训练,InternEvo也能够维持高比例的模型FLOPs利用率(MFU)。

  5. 故障容忍:为了应对GPU数据中心频繁的硬件故障和复杂的并行策略,InternEvo采取了一系列措施以提高训练的稳定性和可靠性,包括增强的故障诊断、自动恢复机制,以及优化的调度系统。

  6. 交互式训练支持:在人类反馈强化学习(RLHF)阶段,InternEvo也展现了其效率,支持在多个LLM上进行交互式训练。

预训练

InternLM2的预训练采用了包括文本、代码和长文本数据在内的多样化数据集,确保了模型能够理解和生成多种形式的内容。这些数据经过规范化处理、去重、安全过滤和质量过滤,以确保数据的丰富性和安全性。

预训练阶段

InternLM2的预训练包含几个阶段,以渐进的方式提升模型的性能:

  1. 4k上下文训练:模型最初在最长4k tokens的数据上进行训练,有助于模型捕获基础的语言规律和知识。
  2. 长上下文训练:模型在长达32k tokens的数据上进行训练,这一阶段强调了模型处理长文本的能力。
  3. 特定能力增强训练:模型在特别设计的数据集上进行训练,这些数据集帮助提升模型在特定任务(如编程、数学推理等)上的表现。

条件奖励模型(Conditional Reward Model)

条件奖励模型是用来解决强化学习中的多个挑战的,用于解决当面对多样化的任务还有偏好适应性的怎么让模型可以快速进行判断和管理这些负责的内容,传统的cool RLHF方法为了针对不同的人类偏好训练了多个奖励模型,这样做的缺点是:偏好会发生冲突,复杂化训练的过程,而条件奖励模型通过引入条件系统提示,使得单一的模型可以根据不同条件或场景进行调整输出,从而满足多种偏好。并且条件奖励模型能够根据输入的特定条件动态调整奖励函数,使模型输出更加符合特定场景或任务的要求。这种动态调整能力让模型在不同类型的任务之间切换更加自然,提高了模型的灵活性和适用范围。在强化学习中,存在模型学会“欺骗”奖励函数以获得更高奖励的情况,条件奖励模型通过对奖励函数的条件化,以及在训练过程中引入更多偏好反馈,有助于减少这种风险,使模型学习到的行为更加符合用户的期望。

 

  • 24
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值