[书生·浦语大模型实战营]——第一节：书生·浦语大模型全链路开源体系and InternLM2 技术报告笔记

不是吧这都有重名

已于 2024-05-25 16:21:42 修改

阅读量597

点赞数 7

分类专栏： openmmlab系列 pytorch 文章标签： python 人工智能深度学习自然语言处理

于 2024-01-04 00:00:10 首次发布

本文链接：https://blog.csdn.net/qq_41776136/article/details/135375060

版权

openmmlab系列同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

pytorch

4 篇文章 0 订阅

订阅专栏

大模型成为发展通用人工智能的重要途径

在这里插入图片描述

书生·浦语大模型开源历程

在这里插入图片描述

书生·浦语模型性能

在这里插入图片描述

从模型到应用

应用例子：智能客服/个人助手/行业应用
实现流程：
在这里插入图片描述
开源开放体系：

1.数据——书生·万卷

在这里插入图片描述
价值观对齐这个挺有意思嗷！

2.预训练工具

在这里插入图片描述

3.微调

大语言模型的下游应用中，增量续训和有监督微调是经常会用到的两种方式
（1）增量续训
使用场景：让基座模型学习到一些新知识，如某个垂类领域知识（垂类领域表示某个行业的某一部分，细分产业）
训练数据：文章、数据、代码等
（2）有监督微调
使用场景：让模型学会理解和遵循各种指令，或者注入少量领域知识
训练数据：高质量的对话、问答数据
在这里插入图片描述

4.评测

在这里插入图片描述

5.部署

在这里插入图片描述

6.应用

在这里插入图片描述

InternLM2 技术报告笔记

该报告提出的InternLM2 是一个开源的大型语言模型（LLM），旨在克服当前开源模型在性能和实用性方面的局限。 该模型在6个维度和30个基准测试中表现出色，并在长上下文建模和开放式主观评估方面取得了显著进展。InternLM2 的训练过程详细描述了各种数据类型（包括文本、代码和长上下文数据）的准备工作，展示了其在捕捉长期依赖性方面的有效性。InternLM2 通过监督微调（SFT）和创新的条件在线人类反馈强化学习（COOL RLHF）进行对齐，解决了人类偏好冲突和奖励操纵问题。

InternLM2 使用 InternEvo 框架进行训练，支持多种并行化策略和 GPU 内存优化技术，如 Zero 冗余优化器和 FlashAttention 技术，实现了高效的模型训练。InternEvo 框架展现了强大的并行能力和高效计算能力，但是可能对目前的学习阶段用处不是很大，但是权当背景知识储备了。

该报告所提出的数据收集处理方法，对于制作自己的领域数据集有很大的帮助。 报告指出文本数据主要来自网页、书籍、技术文献等，通过多阶段的规则过滤、安全过滤和质量过滤获得高质量的预训练数据。而对于长上下文数据通过长度选择、统计过滤和困惑度过滤等步骤进行处理，以确保高质量的长文本数据。其中值得注意的是，从网页中获取的数据的质量是明显低于书籍，论文，专利等来源的，对于垂域数据集的制作，可以考虑专业书籍，论文和专栏等更加可信的来源。

至于更多的技术细节，初次接触，受益颇多，对目前大模型训练中使用的一些技术有了初步的了解。 在对齐阶段，InternLM2 使用监督微调（SFT）和条件在线人类反馈强化学习（COOL RLHF）技术。SFT 使用了 1000 万条指令数据进行训练，而 COOL RLHF 引入了条件奖励模型，通过多轮在线 RLHF 进行调整，以避免奖励操纵行为。条件奖励模型通过不同的系统提示来融合多种人类偏好，提供更加一致和可靠的奖励信号。

InternLM2 通过创新的预训练和优化技术，在多个维度和基准测试中表现出色。通过开放不同训练阶段和模型大小的 InternLM2 模型，提供了社区分析模型演变的宝贵资源。

不是吧这都有重名

关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
[书生·浦语大模型实战营]——第一节：书生·浦语大模型全链路开源体系and InternLM2 技术报告笔记

应用例子：智能客服/个人助手/行业应用实现流程：开源开放体系：价值观对齐这个挺有意思嗷！大语言模型的下游应用中，增量续训和有监督微调是经常会用到的两种方式（1）增量续训使用场景：让基座模型学习到一些新知识，如某个垂类领域知识（垂类领域表示某个行业的某一部分，细分产业）训练数据：文章、数据、代码等（2）有监督微调使用场景：让模型学会理解和遵循各种指令，或者注入少量领域知识训练数据：高质量的对话、问答数据
复制链接

扫一扫