InternLM实战营第二期---第一节课笔记

H1356414643

已于 2024-04-24 21:47:52 修改

阅读量500

点赞数 5

文章标签：笔记人工智能深度学习

于 2024-04-01 23:24:22 首次发布

本文链接：https://blog.csdn.net/l18817813618/article/details/137248739

版权

1.SFT（Supervised Fine-Tuning）介绍：

2.RLHF（Reinforcement Learning from Human Feedback ）介绍：

5.Comprehensive Examination：数据集在不同模型参数下面表现，画下划线表示为领先的数据集分数

大模型介绍：

一、大模型的发展：

大模型发展经历了2个阶段，专用大模型到通用大模型，时间点2006年开始-2011年发展比较缓慢，12年之后几乎1-2年专用领域会有突破性事件发生。通用大模型标志ChatGPT 2022年11月30日OpenAI 发布大模型后迅速走红。

1.专用模型

图像领域：例如深度置信网络，ImageNet 图像分类，人脸识别

语音领域：语音识别

娱乐：德州扑克，AlphaGO

生物领域： AlphaFold

2.通用大模型

OpenAI的GPT系列模型：包括GPT-1、GPT-2、GPT-3、GPT-3.5和GPT-4等。这些模型基于Transformer架构，通过大量的语料库训练，具有强大的语言理解和生成能力。GPT-4是OpenAI最新发布的大型预训练语言模型，具有更高的智能水平和更强大的生成能力。

Google的Transformer模型：包括BERT、RoBERTa、Ernie等。这些模型也是基于Transformer架构的大型预训练语言模型，具有出色的自然语言理解能力、语言生成能力和泛化能力。

二、InternLM简介

书生.浦语大模型2023年6月7日千亿大模型发布，7月6号开源免费商用，8月多模态语料发布月底开源智能体架构Lagent 框架，8月底升级123B千亿参数模型，9月底InternLM 开源.

书生.浦语2.0体系

InternLM2-7B 轻量级模型， InternLM2-20B综合性复杂性模型，InternLM2-Base深度高质量模型，InternLM2 在Base 基础上保持了通用语言能力，InternLM2-Chat 在Base的基础上经过SFT 和RLHF ，面向交互对话交互进行了优化，具有很好的共情能力。

1.SFT（Supervised Fine-Tuning）介绍：

中文监督微调，监督微调是指在源数据集上预训练一个神经网络模型，即源模型。然后创建一个新的神经网络模型，即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识，且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关，因此在目标模型中不予采用。微调时，为目标模型添加一个输出大小为目标数据集类别个数的输出层，并随机初始化该层的模型参数。在目标数据集上训练目标模型时，将从头训练到输出层，其余层的参数都基于源模型的参数微调得到。

具体来说，监督式微调包括以下几个步骤：

预训练： 首先在一个大规模的数据集上训练一个深度学习模型，例如使用自监督学习或者无监督学习算法进行预训练；
微调： 使用目标任务的训练集对预训练模型进行微调。通常，只有预训练模型中的一部分层被微调，例如只微调模型的最后几层或者某些中间层。在微调过程中，通过反向传播算法对模型进行优化，使得模型在目标任务上表现更好；
评估： 使用目标任务的测试集对微调后的模型进行评估，得到模型在目标任务上的性能指标。
监督式微调能够利用预训练模型的参数和结构，避免从头开始训练模型，从而加速模型的训练过程，并且能够提高模型在目标任务上的表现。监督式微调在计算机视觉、自然语言处理等领域中得到了广泛应用。然而监督也存在一些缺点。首先，需要大量的标注数据用于目标任务的微调，如果标注数据不足，可能会导致微调后的模型表现不佳。其次，由于预训练模型的参数和结构对微调后的模型性能有很大影响，因此选择合适的预训练模型也很重要。

2.RLHF（Reinforcement Learning from Human Feedback ）介绍：

自 ChatGPT 问世，OpenAI 使用的训练方法人类反馈强化学习（RLHF）就备受关注，已经成为微调大型语言模型（LLM）的核心方法。RLHF 方法在训练中使用人类反馈，以最小化无益、失真或偏见的输出，使 AI 模型与人类价值观对齐。
RLHF的过程可以分为几个步骤：

初始模型训练：一开始，AI模型使用监督学习进行训练，人类训练者提供正确行为的标记示例。模型学习根据给定的输入预测正确的动作或输出。
收集人类反馈：在初始模型被训练之后，人类训练者提供对模型表现的反馈。他们根据质量或正确性排名不同的模型生成的输出或行为。这些反馈被用来创建强化学习的奖励信号。
强化学习：然后使用Proximal Policy Optimization (PPO)或类似的算法对模型进行微调，这些算法将人类生成的奖励信号纳入其中。模型通过从人类训练者提供的反馈学习，不断提高其性能。
迭代过程：收集人类反馈并通过强化学习改进模型的过程是重复进行的，这导致模型的性能不断提高。

3.书生.浦语大模型开源历程

4.InternLM做了什么事情

多维度数据价值评估，高质量语料富集，有针对性数据补齐。

5.书生.浦语言2.0主要特点

超长上下文能力，20万token上下文，全面综合推理能力如数学，推理，代码等，精准的的指令跟随，超越GPT3.5和Gemini Pro，工具支持，强大内生计算能力在GSM8K和MATH达到和GPT-4的相仿的水平，

GSM8K 数据集是由 OpenAI 发布的小学数学题数据集，最先进的语言模型可以在许多任务上与人类的表现相匹配，但它们仍然难以稳健地进行多步骤的数学推理。为了诊断当前模型的失败并支持研究，我们发布了GSM8K，一个由8.5K高质量的语言多样化的小学数学单词问题组成的数据集。我们发现，尽管这个问题分布在概念上很简单，但即使是最大的 Transformer 模型也不能达到很高的测试性能。由此得出一个结论，AI发展目前只是初级阶段。

三、大模型能做什么，怎么评测

智能客服，个人助手，行业应用等

模型选型，业务场景，算力是否足够，是否需要微调，工具调用等

书生.浦语全链条开放体系包含的内容有那些

数据集：包含2TB 文本，图像和视频等多模态数据，蕴含概科技、文学、媒体、教育和法律等多个领域模型的知识内容，经过精细化筛选，文本提取，格式化标准，数据的过滤和清洗，价值观对齐。横跨2013-2023年互联网公开内容，经过深度萃取得到高信息密度的万卷CC。

画重点

预训练：支持8卡到千卡训练，极致性能优化，无缝接入HuggingFace等技术生态，开箱即用

微调Xtuner：增量训练如某个领域的知识，文章，书籍，代码等，有监督训练如高质量的对话，问答数据等

有监督微调：使用场景让模型理解各种指令进行对话，或者注入少量领域知识，训练数据：高质量对话，问答数据。

评测：OpenCompass，数据污染监测，模型推理，长文本能力评测，中英文双语主管评测

另外介绍了开源社区合作机构企业，包含阿里巴巴、华为、百度、微软、复旦大学、美团、小红书、boss，opp，vivo，百川智能，腾讯、东方财富等。

部署：LMDeploy 提供大模型GPU上面部署全流程解决方案

gRPC :是一个现代开源高性能远程过程调用（RPC）框架，可以在任何环境中运行。它可以有效地连接数据中心内和跨数据中心的服务，并提供对负载平衡、跟踪、健康检查和身份验证的可插入支持。它还适用于分布式计算的最后一英里，将设备、移动应用程序和浏览器连接到后端服务。简单来说:它是一种协议用来屏蔽分不分布式计算中的各种调用细节,使你可以像可以本地调用一样调用远程的函数

微服务架构带来服务与服务间存在的调用关系,而在服务与服务之间存在进程和进程,服务器和服务器之间的调用,使用GRPC协议能够不同的服务快速的连接,在性能上优于http协议

轻量级智能框架：Lagent支持多种智能体能力，ReAct,ReWoo,AutoGPT,灵活支持多种大语言模型 GPT3.5/4 ，Hugging Face Transformers ，Llama等

四、 InternLM2 Technical Report

摘要介绍了开源大模型遇到的挑战，以及InternelLM2 的在文本处理，上下文，开发训练，预训练优化方面的优点。

文章介绍了开始介绍了，LLM 开源大模型的发展，主要玩家LLaMA，Qwen，Mistral，Deepseek等。

InternLM2 使用了SFT 微调技术，RLHF技术使得模型能够符合人类指令和价值观一致

1.InternEvot 特点

Reducing Communication Overhead：减少通信开销主要体现在内存利用率和通信成本之间存在权衡。最初，可以通过减小通信规模来有效地降低通信成本。
Communication-Computation Overlap：合理分组，优化协调GPU跟内存直接关系优化切片提高GPU使用效率。
Long-Sequence Training：计算速度和通信开销之间的权衡。InternEvo故障GPU存储器管理到具有四个平行维度的分层空间中——数据，张量、序列和管道——以及三个分片维度——参数、梯度和优化器状态（Chen et al.，2024a）。我们对记忆和每个维度的通信成本，利用执行模拟器来识别和实现最优并行化策略。
Fault Tolerance：我们还解决了在以下方面有效培训LLM的挑战GPU数据中心，经常面临诸如频繁硬件故障、复杂并行化策略和不平衡的资源利用。
Interactive Training ：在从人的反馈中强化学习（RLHF）阶段，其中多个LLM部署用于交互式培训

2.模型结构：

InternLM2借鉴了主流的模型结构又做了一些升级，文章提到了，大模型的结构组件，顺便查询了区别。

Layer Norm、RMS Norm、Deep Norm

昇腾大模型|结构组件-1——Layer Norm、RMS Norm、Deep Norm - 知乎

InternLM2差异的地方

3.Pre-train

强调数据的重要性，LLM的预培训主要由数据决定，这是一个多方面的挑战。它包括处理敏感数据，涵盖全面的知识，以及平衡效率和质量。在本节中，我们将描述我们的数据处理管道用于准备通用域文本数据、编程语言相关数据和long文本数据，本章节主要介绍了数据的代码来源，结构，格式，数据清洗，数据提取，数据安全的重要性，长文本能力，长文本领域筛选，过滤方法，阈值，不同领域所遇到的挑战以及解决策略。

4. Alignment：

在本报告中，我们提出了InternetLM2大型语言模型，该模型在主观和客观评估中都表现出了卓越的性能。InternetLM2已接受培训

在超过2T的高质量预训练语料库上，覆盖1.8B、7B和20B的模型大小，使其适用于各种场景。为了更好地支持长上下文，InternetLM2采用GQA来降低推理成本，并接受了高达32k的额外培训上下文。除了开源模型本身，我们还提供检查点从训练过程的各个阶段，为今后的研究提供便利。除了开源模型外，我们还提供了我们如何培训的详细描述InternetLM2，包括训练框架、训练前文本数据、训练前代码数据、，训练前长文本数据和对齐数据。此外，为了解决偏好冲突在RLHF过程中遇到的问题，我们提出了条件在线RLHF来协调各种预制件

Supervised Fine-Tuning：
在监督微调（SFT）阶段，我们使用一个包含1000万指令数据的数据集实例，这些实例经过筛选以确保其有用且无害。这个数据集包括各种各样的主题，包括一般对话、NLP任务、，数学问题、代码生成和函数调用等。图7显示了详细的SFT数据主题的分发。为了便于这种各种任务的通用表示，我们将数据样本转换为ChatML（Cha）格式。
COOL Reinforcement Learning from Human Feedback：
从人类反馈中强化学习（RLHF）是大型语言模型领域中的一种创新方法。通过结合人类反馈，RLHF创建了奖励模型，作为人类偏好，从而为LLM通过使用近端策略优化来学习提供奖励信号该方法使模型能够更好地理解和执行难以通过传统方法定义的任务

Conditional Reward Model

上下文的长微调

Comprehensive Examination：数据集在不同模型参数下面表现，画下划线表示为领先的数据集分数

综上：论文体量非常庞大涉及内容很多人工智能涉及的东西方方面面是一个综合性非常强的学科，人类真正的走向人工智能还有非常远的道路需要走。

https://arxiv.org/pdf/2403.17297.pdf 技术报告

书生·浦语大模型全链路开源体系_哔哩哔哩_bilibili 培训视频

H1356414643

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
InternLM实战营第二期---第一节课笔记

例如深度置信网络，ImageNet 图像分类，AlphaGO AlphaFold 大规模语音识别人脸识别德州扑克书生.浦语大模型2023年6月7日千亿大模型发布，7月6号开源免费商用，8月多模态语料发布月底开源智能体架构Lagent 框架，8月底升级123B千亿参数模型，9月底InternLM 开源.书生.浦语2.0体系。
复制链接

扫一扫