书生浦语大模型第一节课总结及IternLM2技术报告

最新推荐文章于 2024-09-12 23:00:00 发布

梦醒乐

最新推荐文章于 2024-09-12 23:00:00 发布

阅读量1k

点赞数 22

文章标签：笔记

本文链接：https://blog.csdn.net/invgh/article/details/137199979

版权

本文介绍了书生浦语大模型2.0的开源历程，包括模型体系、数据处理、训练框架、模型结构优化、监督微调和COOLRLHF强化学习。详细探讨了IternLM2的特点和性能提升，以及全链条开发体系的开源组件。

摘要由CSDN通过智能技术生成

一.书生浦语大模型的技术背景及开源历程

通用大模型成为人工智能发展趋势，书生浦语大模型2.0提供不同尺寸和类型的模型，支持多语言和多模态任务

二.从模型到应用的典型流程

三.开源的书生浦语2.0大模型内容介绍

1.书生浦语2.0大模型整体体系

2.IternLM2的数据清洗过滤技术

3.IternLM2的主要亮点展示

模型能力亮点主要体现在长上下文理解、对话与创作、数学能力以及数据分析能力与GPT4不相上下，且可以搭建智能体的复杂结构。

4.IternLM2性能提升分析

5.IternLM2应用

四.开源的书生浦语全链条开方体系

1.高质量数据

2.预训练框架

开源了InternLM-Train预训练框架

3.微调方式

开源了XTuner微调框架

4.部署结构

开源了LMDeploy框架

5.评测体系

开源了OpenCompass全方面评测工具

6.应用举例

智能体框架Legend支持多种智能体能力，提供多模态AI工具箱AgentLego和多媒体算法功能

五.IternLM2技术报告

来源：https://arxiv.org/pdf/2403.17297.pdf

在这个报告中，我对IternLM2技术的创新有以下四点总结

一.训练框架

在报告中介绍了在预训练、SFT 和 RLHF 期间使用的训练框架 InternEvo。通过利用 InternEvo，一个高效、轻量级的预训练框架，进行模型训练。

图 1：使用 InternEvo 训练 InternLM-7B 的模型 FLOP 利用率（MFU）。通过使用 4096 个具有不同 GPU 编号的序列长度对训练性能进行基准测试，并在 128 个具有不同序列长度的 GPU 上对训练性能进行基准测试。

二.模型结构

1.LLaMA （Touvron et al.， 2023a）建立在 Transformer 架构之上，将 LayerNorm （Ba et al.， 2016）替换为 RMSNorm （Zhang & Sennrich， 2019）并将激活函数设置为 SwiGLU （Shazeer， 2020），从而提高了训练效率和性能。

2.InternLM2模型的突出优点是遵循 LLaMA 的结构设计原则，整合了 Wk、Wq 和 Wv 矩阵，对每个头的 Wk、Wq 和 Wv 采用交错方法，这种设计修改通过沿矩阵的最后一个维度拆分或连接矩阵来促进张量并行大小的调整，从而增强了模型在不同分布式计算环境中的灵活性。InternLM2 旨在推断 32K 上下文之外的。