LLM模型体系
以书生·浦语大模型为例
- 7B:轻量级模型
- 20B
- InternLM2-Base:高质量模型基座
- InternLM2:多个方面进行强化,推荐使用的优秀基座
- InternLM2-Chat:在对话交互上进行优化
新一代数据清洗过滤技术:
- 数据质量、密度等维度的价值评估与提升
- 数据富集
- 针对性的数据补齐
全链条体系
- 数据
- 高质量语料数据,文本、图像、视频
- 预训练
- 微调
- 增量续训
- 有监督微调
- 部署(轻量化、推理和服务)
- 评测(评测体系)
- 应用(智能体)
以上内容整理自【书生·浦语大模型全链路开源体系-哔哩哔哩】 https://b23.tv/fdEbM2d
InternLM技术报告的内容总结
内容摘要
- 背景介绍:文章讨论了大型语言模型(LLMs)的发展,如ChatGPT和GPT-4,它们在学术和工业界引起了广泛关注,并引发了关于人工通用智能(AGI)时代到来的讨论。尽管存在热情,但复制这些模型的进展在开源模型中仍然是一个挑战。
- InternLM2模型:文章介绍了InternLM2,这是一个在多个维度和基准测试中优于其前身的开源LLM。InternLM2通过创新的预训练和优化技术,在长文本建模和开放式主观评估中表现出色。
- 预训练过程:详细介绍了InternLM2的预训练过程,包括对文本、代码和长文本数据的多样化数据类型的准备。InternLM2能够有效捕捉长期依赖关系,并在预训练和微调阶段从4k令牌开始,逐步过渡到32k令牌。
- 模型结构与基础设施:介绍了用于模型训练的训练框架InternEvo,它支持在数千个GPU上扩展模型训练。
- 对齐与微调:文章讨论了如何通过监督式微调(SFT)和人类反馈的强化学习(RLHF)来调整模型,使其更好地符合人类指令和价值观。特别提出了一种新的条件在线强化学习(COOL RLHF)策略,以解决人类偏好冲突和奖励黑客攻击的问题。
- 评估与分析:提供了对InternLM2在各种下游任务和对齐任务上的性能的全面评估和分析。
- 结论:文章总结了InternLM2的主要贡献,包括模型的卓越性能、设计的200k上下文窗口、全面的数据准备指导以及创新的RLHF训练技术。
- 附录:包含了对项目贡献者的致谢和用于评估的提示示例。
文章还提到了InternLM2在不同阶段和不同模型大小下的发布,以及为了社区分析在SFT和RLHF训练后变化而发布的模型。此外,文章还讨论了数据污染问题,并对几个流行的主观对齐数据集上的性能进行了评估。最后,文章还包括了对InternLM2在各种任务上的性能进行的详细评估,包括编程任务、问答任务、考试任务和长文本建模任务。
提及的产品
- InternLM2模型:这是一个开源的大型语言模型(LLM),在多个维度和基准测试中优于其前身。
- 不同训练阶段和大小的模型:文档提到了发布了不同训练阶段的模型,包括:
- InternLM2-Chat-{size}-SFT:这里的“size”代表模型的大小,SFT代表监督式微调(Supervised Fine-Tuning)。
- InternLM2-Chat-{size}:这可能代表经过进一步训练或微调的模型版本。
- InternEvo训练框架:这是一个用于模型训练的高效且轻量级的预训练框架,支持在数千个GPU上扩展模型训练。
- 数据准备和训练指南:文档详细介绍了如何准备预训练数据,包括文本数据、代码数据和长文本数据,以及如何进行模型的对齐训练,这可以被视为一种“产品”,因为它为社区提供了如何训练LLMs的宝贵信息。
- COOL RLHF(Conditional Online Reinforcement Learning from Human Feedback):这是一种新的条件在线强化学习策略,用于改进模型与人类价值观的对齐。
- 评估工具和协议:文档中提到了使用OpenCompass进行模型性能评估,这是一种通用的评估平台,可能由InternLM提供或推荐给社区使用。
- 模型性能评估结果:虽然这不是一个产品,但文档提供了模型在各种任务和基准测试中的性能评估结果,这些结果对于社区了解模型性能和应用场景非常有用。
- 代码和工具:文档中提到了使用特定的代码和工具来增强模型的特定能力,例如使用Python代码解释器来提高解决数学问题的能力。
这些发布的产品和资源旨在促进大型语言模型的研究和开发,并帮助社区更好地理解和使用InternLM2模型。