LLM课程【书生·浦语 InternLM实战营】1

robin_ze

已于 2024-04-23 16:46:05 修改

阅读量125

点赞数 2

分类专栏： LLM 文章标签：开源 chatgpt

于 2024-04-20 12:07:52 首次发布

本文链接：https://blog.csdn.net/robin_ze/article/details/137995285

版权

LLM 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

LLM模型体系

以书生·浦语大模型为例

7B：轻量级模型
20B

InternLM2-Base：高质量模型基座
InternLM2：多个方面进行强化，推荐使用的优秀基座
InternLM2-Chat：在对话交互上进行优化

新一代数据清洗过滤技术：

数据质量、密度等维度的价值评估与提升
数据富集
针对性的数据补齐

全链条体系

数据
- 高质量语料数据，文本、图像、视频
预训练
微调
- 增量续训
- 有监督微调
部署（轻量化、推理和服务）
评测（评测体系）
应用（智能体）

以上内容整理自【书生·浦语大模型全链路开源体系-哔哩哔哩】 https://b23.tv/fdEbM2d

InternLM技术报告的内容总结

内容摘要

背景介绍：文章讨论了大型语言模型（LLMs）的发展，如ChatGPT和GPT-4，它们在学术和工业界引起了广泛关注，并引发了关于人工通用智能（AGI）时代到来的讨论。尽管存在热情，但复制这些模型的进展在开源模型中仍然是一个挑战。
InternLM2模型：文章介绍了InternLM2，这是一个在多个维度和基准测试中优于其前身的开源LLM。InternLM2通过创新的预训练和优化技术，在长文本建模和开放式主观评估中表现出色。
预训练过程：详细介绍了InternLM2的预训练过程，包括对文本、代码和长文本数据的多样化数据类型的准备。InternLM2能够有效捕捉长期依赖关系，并在预训练和微调阶段从4k令牌开始，逐步过渡到32k令牌。
模型结构与基础设施：介绍了用于模型训练的训练框架InternEvo，它支持在数千个GPU上扩展模型训练。
对齐与微调：文章讨论了如何通过监督式微调（SFT）和人类反馈的强化学习（RLHF）来调整模型，使其更好地符合人类指令和价值观。特别提出了一种新的条件在线强化学习（COOL RLHF）策略，以解决人类偏好冲突和奖励黑客攻击的问题。
评估与分析：提供了对InternLM2在各种下游任务和对齐任务上的性能的全面评估和分析。
结论：文章总结了InternLM2的主要贡献，包括模型的卓越性能、设计的200k上下文窗口、全面的数据准备指导以及创新的RLHF训练技术。
附录：包含了对项目贡献者的致谢和用于评估的提示示例。

文章还提到了InternLM2在不同阶段和不同模型大小下的发布，以及为了社区分析在SFT和RLHF训练后变化而发布的模型。此外，文章还讨论了数据污染问题，并对几个流行的主观对齐数据集上的性能进行了评估。最后，文章还包括了对InternLM2在各种任务上的性能进行的详细评估，包括编程任务、问答任务、考试任务和长文本建模任务。

提及的产品

InternLM2模型：这是一个开源的大型语言模型（LLM），在多个维度和基准测试中优于其前身。
不同训练阶段和大小的模型：文档提到了发布了不同训练阶段的模型，包括：
InternLM2-Chat-{size}-SFT：这里的“size”代表模型的大小，SFT代表监督式微调（Supervised Fine-Tuning）。
- InternLM2-Chat-{size}：这可能代表经过进一步训练或微调的模型版本。
- InternEvo训练框架：这是一个用于模型训练的高效且轻量级的预训练框架，支持在数千个GPU上扩展模型训练。
数据准备和训练指南：文档详细介绍了如何准备预训练数据，包括文本数据、代码数据和长文本数据，以及如何进行模型的对齐训练，这可以被视为一种“产品”，因为它为社区提供了如何训练LLMs的宝贵信息。
COOL RLHF（Conditional Online Reinforcement Learning from Human Feedback）：这是一种新的条件在线强化学习策略，用于改进模型与人类价值观的对齐。
评估工具和协议：文档中提到了使用OpenCompass进行模型性能评估，这是一种通用的评估平台，可能由InternLM提供或推荐给社区使用。
模型性能评估结果：虽然这不是一个产品，但文档提供了模型在各种任务和基准测试中的性能评估结果，这些结果对于社区了解模型性能和应用场景非常有用。
代码和工具：文档中提到了使用特定的代码和工具来增强模型的特定能力，例如使用Python代码解释器来提高解决数学问题的能力。