【InternLM 实战营第二期笔记】书生·浦语大模型全链路开源体系

本文链接：https://blog.csdn.net/GavinLiu__/article/details/138814527

课程链接GitHub：InternLM/Tutorial at camp2

第一次课程录播链接：书生·浦语大模型全链路开源体系_哔哩哔哩_bilibili

InternLM2技术报告

一、书生浦语大模型简介

模型发布

2023年6月7日，InternLM大模型发布

2024年1月，上海 AI Lab正式发布书生 · 浦语 2.0（InternLM2），包括1.8B、7B 及 20B 两种参数规格及Base、Chat等多个版本：

InternLM2_Base：高质量、强可塑性的基座模型
InternLM2：在Base基础上，在多个能力进行了强化，更优秀的基座模型
Chat-SFT：在Base基础上，经过有监督微调SFT后的对话模型
InternLM2-Chat：经过SFT和RLHF，面向对话交互进行优化的模型

回归语言建模的本质，InternLM2使用新一代数据清洗过滤技术

1.多维度数据价值评估
2.高质量语料驱动的数据富集
3.有针对性的数据补齐

开源数据集平台OpenDataLab：OpenDataLab

InternLM2的主要亮点

1.20万token上下文
2.chat-20B在推理数学等重点评测上比肩ChatGPT
3.结构化创作，超越GPT3.5
4.工具多轮调用，复杂智能体创建
5.计算能力，加入代码解释后，和GPT-4相仿水平

对于其他参数量类似的开源模型，基本是全方位的超越，特别是推理、数学、代码等方面的能力提升尤为显著

举例：旅游规划、人文关怀对话、科幻创作、工具调用能力……
内生计算能力：配合代码解释器，20B模型已经可以完成大学的微积分题目
数据分析能力：上传表格，可以画出趋势发展图，调用机器学习算法，做出后续预测

二、从模型到应用流程

在这里插入图片描述

1.典型流程图

在这里插入图片描述

书生浦语对整个流程实现了全覆盖：数据-预训练-微调-部署-评测-应用

2.数据

数据环节，书生CC做到了高质量语料驱动、安全性能高

在这里插入图片描述

3.预训练

预训练环节，支持8卡到千卡训练，支持HuggingFace等配置、支持多种规格语言模型，能够修改配置即可训练

在这里插入图片描述

4.微调

微调环节，支持增量续训和有监督微调（全量参数微调、部分参数微调）

使用XTuner框架，适配多种生态：

1.支持多种输入数据的格式

2.支持优化加速（Flash Attention, DeepSpeed）

3.支持多种微调算法（LoRA, QLoRA, 全量微调）

适配多种硬件，最低只需8GB显存即可微调7B模型
在这里插入图片描述

5.评测

评测环节，opencompass2.0评测体系，可以对市面上常见的大模型进行评测，评测内容包括：

1.数据污染检查

2.更丰富的模型推理接入

3.长文本能力检测

4.中英文双语主观评测

同时构建了评测基准社区，汇聚专家、学者的评测数据集

opencompass也是Meta官方推荐的唯一国产大模型评测体系

在这里插入图片描述

OpenCompass对大模型进行循环评测方法，得到的大模型评测年度榜单

在这里插入图片描述

6.部署

部署环节，LMDeploy提供了完整的部署工具链，提供包括Python、grpc、restful的接口，提供模型从轻量化、推理和服务的全流程

在这里插入图片描述

7.智能体

智能体框架，Lagent,支持多种大语言模型、支持多个主流智能体系统

同时开发了AgentLego智能体工具箱，提供了多种工具接口的封装
在这里插入图片描述

三、InternLM2 技术报告学习

文档链接https://arxiv.org/pdf/2403.17297.pdf

使用文心一言解读文档

引言

随着人工智能技术的飞速发展，大型语言模型（Large Language Models，简称LLMs）如ChatGPT和GPT-4的出现，标志着人工智能在自然语言处理领域取得了重大突破，引发了关于人工通用智能（Artificial General Intelligence，简称AGI）即将到来的广泛讨论。然而，在开源环境中复制这样的进步一直是一个挑战。为此，我们介绍了InternLM2，一个开源的大型语言模型，通过创新的预训练和优化技术，在多个维度和基准测试中均超越了其前代模型。

模型概述

InternLM2是在多个研究机构和企业的共同努力下开发的。它汇聚了来自上海AI实验室、商汤科技、香港中文大学、复旦大学等众多顶尖科研团队的智慧和资源。该模型采用了先进的深度学习架构和算法，旨在提高自然语言处理任务的准确性和效率。

技术亮点

创新的预训练技术：InternLM2在预训练过程中采用了多项创新技术，包括无监督学习和自监督学习相结合的方法，以充分利用大量的无标注数据。这种预训练方式使得模型能够更好地捕捉语言的内在规律和结构，为后续的任务提供强大的基础。
多维度评估体系：为了全面评估InternLM2的性能，我们设计了一个涵盖6个维度和30个基准测试的综合评估体系。这些基准测试涵盖了语言理解、语言生成、文本分类、情感分析等多个方面，确保了模型在各个方面的表现都能得到准确评估。
长上下文建模能力：InternLM2具有出色的长上下文建模能力，能够处理长达数千个词的文本输入。这使得模型在处理复杂对话、长篇文档等任务时具有更高的准确性和灵活性。
开放式主观评价：除了客观评估指标外，我们还进行了开放式主观评价，以评估模型在真实应用场景下的表现。这些评价涉及了模型的生成质量、语义连贯性、多样性等方面，为模型的改进提供了有价值的反馈。