书生浦语大模型第一节课总结及IternLM2技术报告

本文介绍了书生浦语大模型2.0的开源历程,包括模型体系、数据处理、训练框架、模型结构优化、监督微调和COOLRLHF强化学习。详细探讨了IternLM2的特点和性能提升,以及全链条开发体系的开源组件。
摘要由CSDN通过智能技术生成

一.书生浦语大模型的技术背景及开源历程

通用大模型成为人工智能发展趋势,书生浦语大模型2.0提供不同尺寸和类型的模型,支持多语言和多模态任务

二.从模型到应用的典型流程

三.开源的书生浦语2.0大模型内容介绍

1.书生浦语2.0大模型整体体系

2.IternLM2的数据清洗过滤技术

3.IternLM2的主要亮点展示

模型能力亮点主要体现在长上下文理解、对话与创作、数学能力以及数据分析能力与GPT4不相上下,且可以搭建智能体的复杂结构。

4.IternLM2性能提升分析

5.IternLM2应用

 四.开源的书生浦语全链条开方体系
1.高质量数据
2.预训练框架

 开源了InternLM-Train预训练框架

3.微调方式

开源了XTuner微调框架

4.部署结构

开源了LMDeploy框架

5.评测体系

开源了OpenCompass全方面评测工具

6.应用举例

智能体框架Legend支持多种智能体能力,提供多模态AI工具箱AgentLego和多媒体算法功能

五.IternLM2技术报告

来源:​https://arxiv.org/pdf/2403.17297.pdf​

 在这个报告中,我对IternLM2技术的创新有以下四点总结

一.训练框架

 在报告中介绍了在预训练、SFT 和 RLHF 期间使用的训练框架 InternEvo。通过利用 InternEvo,一个高效、轻量级的预训练框架,进行模型训练。

   图 1:使用 InternEvo 训练 InternLM-7B 的模型 FLOP 利用率 (MFU)。通过使用 4096 个具有不同 GPU 编号的序列长度对训练性能进行基准测试,并在 128 个具有不同序列长度的 GPU 上对训练性能进行基准测试。

二.模型结构

1.LLaMA (Touvron et al., 2023a) 建立在 Transformer 架构之上,将 LayerNorm (Ba et al., 2016) 替换为 RMSNorm (Zhang & Sennrich, 2019) 并将激活函数设置为 SwiGLU (Shazeer, 2020),从而提高了训练效率和性能。

2.InternLM2模型的突出优点是遵循 LLaMA 的结构设计原则,整合了 Wk、Wq 和 Wv 矩阵,对每个头的 Wk、Wq 和 Wv 采用交错方法,这种设计修改通过沿矩阵的最后一个维度拆分或连接矩阵来促进张量并行大小的调整,从而增强了模型在不同分布式计算环境中的灵活性。InternLM2 旨在推断 32K 上下文之外的。

三.监督微调

在监督微调 (SFT) 阶段,通过使用了 1000 万个指令数据实例的数据集,并且它们是经过筛选的,而且为了便于多功能地表示这些不同的任务将数据样本转换为 ChatML (Cha) 格式。

四.COOL 强化学习

COOL RLHF首先引入了条件奖励机制来调和不同的偏好,该机制允许奖励模型根据特定条件动态地将注意力分配给各种偏好,从而优化整合多个偏好。此外,COOL RLHF采用多轮在线RLHF策略,使LLM能够迅速适应新的人类反馈。

  • 22
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值