LLM课程【书生·浦语 InternLM实战营】1

LLM模型体系

以书生·浦语大模型为例
  • 7B:轻量级模型
  • 20B

  • InternLM2-Base:高质量模型基座
  • InternLM2:多个方面进行强化,推荐使用的优秀基座
  • InternLM2-Chat:在对话交互上进行优化

新一代数据清洗过滤技术:

  • 数据质量、密度等维度的价值评估与提升
  • 数据富集
  • 针对性的数据补齐

全链条体系

  • 数据
    • 高质量语料数据,文本、图像、视频
  • 预训练
  • 微调
    • 增量续训
    • 有监督微调
  • 部署(轻量化、推理和服务)
  • 评测(评测体系)
  • 应用(智能体)

以上内容整理自【书生·浦语大模型全链路开源体系-哔哩哔哩】 https://b23.tv/fdEbM2d

InternLM技术报告的内容总结

内容摘要

  1. 背景介绍:文章讨论了大型语言模型(LLMs)的发展,如ChatGPT和GPT-4,它们在学术和工业界引起了广泛关注,并引发了关于人工通用智能(AGI)时代到来的讨论。尽管存在热情,但复制这些模型的进展在开源模型中仍然是一个挑战。
  2. InternLM2模型:文章介绍了InternLM2,这是一个在多个维度和基准测试中优于其前身的开源LLM。InternLM2通过创新的预训练和优化技术,在长文本建模和开放式主观评估中表现出色。
  3. 预训练过程:详细介绍了InternLM2的预训练过程,包括对文本、代码和长文本数据的多样化数据类型的准备。InternLM2能够有效捕捉长期依赖关系,并在预训练和微调阶段从4k令牌开始,逐步过渡到32k令牌。
  4. 模型结构与基础设施:介绍了用于模型训练的训练框架InternEvo,它支持在数千个GPU上扩展模型训练。
  5. 对齐与微调:文章讨论了如何通过监督式微调(SFT)和人类反馈的强化学习(RLHF)来调整模型,使其更好地符合人类指令和价值观。特别提出了一种新的条件在线强化学习(COOL RLHF)策略,以解决人类偏好冲突和奖励黑客攻击的问题。
  6. 评估与分析:提供了对InternLM2在各种下游任务和对齐任务上的性能的全面评估和分析。
  7. 结论:文章总结了InternLM2的主要贡献,包括模型的卓越性能、设计的200k上下文窗口、全面的数据准备指导以及创新的RLHF训练技术。
  8. 附录:包含了对项目贡献者的致谢和用于评估的提示示例。

文章还提到了InternLM2在不同阶段和不同模型大小下的发布,以及为了社区分析在SFT和RLHF训练后变化而发布的模型。此外,文章还讨论了数据污染问题,并对几个流行的主观对齐数据集上的性能进行了评估。最后,文章还包括了对InternLM2在各种任务上的性能进行的详细评估,包括编程任务、问答任务、考试任务和长文本建模任务。

提及的产品

  1. InternLM2模型:这是一个开源的大型语言模型(LLM),在多个维度和基准测试中优于其前身。
  2. 不同训练阶段和大小的模型:文档提到了发布了不同训练阶段的模型,包括:
  3. InternLM2-Chat-{size}-SFT:这里的“size”代表模型的大小,SFT代表监督式微调(Supervised Fine-Tuning)。
    • InternLM2-Chat-{size}:这可能代表经过进一步训练或微调的模型版本。
    • InternEvo训练框架:这是一个用于模型训练的高效且轻量级的预训练框架,支持在数千个GPU上扩展模型训练。
  4. 数据准备和训练指南:文档详细介绍了如何准备预训练数据,包括文本数据、代码数据和长文本数据,以及如何进行模型的对齐训练,这可以被视为一种“产品”,因为它为社区提供了如何训练LLMs的宝贵信息。
  5. COOL RLHF(Conditional Online Reinforcement Learning from Human Feedback):这是一种新的条件在线强化学习策略,用于改进模型与人类价值观的对齐。
  6. 评估工具和协议:文档中提到了使用OpenCompass进行模型性能评估,这是一种通用的评估平台,可能由InternLM提供或推荐给社区使用。
  7. 模型性能评估结果:虽然这不是一个产品,但文档提供了模型在各种任务和基准测试中的性能评估结果,这些结果对于社区了解模型性能和应用场景非常有用。
  8. 代码和工具:文档中提到了使用特定的代码和工具来增强模型的特定能力,例如使用Python代码解释器来提高解决数学问题的能力。

这些发布的产品和资源旨在促进大型语言模型的研究和开发,并帮助社区更好地理解和使用InternLM2模型。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值