一、从专用模型到通用大模型的发展历程
现阶段学术界、工业界人工智能大模型逐渐向多任务,多模态方面发展,通过一个模型就可以做到多种工业应用。
二、书生浦语大模型开源 的升级以及internLM2的简介
internlm2有何提升?
回归语言建模的本质——新一代数据清洗过滤技术
- 数据质量、密度等维度的价值评估与提升
- 数据富集
- 针对性的数据补齐
InternLM2主要亮点
- 超长200k上下文token
- 综合性能全面提升以及推理、数学、代码提升显著
- 优秀的对话和创作体验
- 工具调用能力整体升级,可靠支持工具多轮调用,复杂智能体搭建
- 突出的数理能力和实用的数据分析功能以及具有强大的内生计算能力
三、书生·浦语的全链条开源体系
- 数据
- 高质量语料数据,文本、图像、视频
- 预训练
- 微调
- 增量续训
- 有监督微调
- 部署(轻量化、推理和服务)
- 评测(评测体系)
- 应用(智能体)
InternLM2技术报告
https://arxiv.org/pdf/2403.17297.pdf
- 背景介绍:文章讨论了大型语言模型(LLMs)的发展,如ChatGPT和GPT-4,它们在学术和工业界引起了广泛关注,并引发了关于人工通用智能(AGI)时代到来的讨论。尽管存在热情,但复制这些模型的进展在开源模型中仍然是一个挑战。
- InternLM2模型:文章介绍了InternLM2,这是一个在多个维度和基准测试中优于其前身的开源LLM。InternLM2通过创新的预训练和优化技术,在长文本建模和开放式主观评估中表现出色。
- 预训练过程:详细介绍了InternLM2的预训练过程,包括对文本、代码和长文本数据的多样化数据类型的准备。InternLM2能够有效捕捉长期依赖关系,并在预训练和微调阶段从4k令牌开始,逐步过渡到32k令牌。
- 模型结构与基础设施:介绍了用于模型训练的训练框架InternEvo,它支持在数千个GPU上扩展模型训练。
- 对齐与微调:文章讨论了如何通过监督式微调(SFT)和人类反馈的强化学习(RLHF)来调整模型,使其更好地符合人类指令和价值观。特别提出了一种新的条件在线强化学习(COOL RLHF)策略,以解决人类偏好冲突和奖励黑客攻击的问题。
- 评估与分析:提供了对InternLM2在各种下游任务和对齐任务上的性能的全面评估和分析。
- 结论:文章总结了InternLM2的主要贡献,包括模型的卓越性能、设计的200k上下文窗口、全面的数据准备指导以及创新的RLHF训练技术。
- 附录:包含了对项目贡献者的致谢和用于评估的提示示例。