视频地址:https://www.bilibili.com/video/BV1Vx421X72D/
感谢陈凯老师的讲解, 以下为InterLLM2的相关笔记:
开源历程
InternLM ,即书生·浦语大模型,包含面向实用场景的70亿参数基础模型与对话模型 (InternLM-7B)。模型具有以下特点:
- 使用上万亿高质量预料,建立模型超强知识体系;
- 支持8k语境窗口长度,实现更长输入与更强推理体验;
- 通用工具调用能力,支持用户灵活自助搭建流程;
提供了支持模型预训练的轻量级训练框架,无需安装大量依赖包,一套代码支持千卡预训练和单卡人类偏好对齐训练,同时实现了极致的性能优化,实现千卡训练下近90%加速效率。
InternLM2 体系
数据清洗技术改进
亮点
Intern LLM2的一大创新来源是其训练数据的处理更加有效. 语义质量高, 针对代码理解、数理知识等增加对应的数据来增强大模型的推理能力. 最终的主要亮点有: 文本长度、 数理能力和数据分析功能. 结合报告来看, Intern LLM2加入了RLHF (reinforcement learning from human feedback), 加强对指令的理解, 从而能极大提升对话和创作体验.
DEMO
附加一个最近看到的引用: 数学课代表如何练成的:
研究人员利用InternLM2基座版模型,精选数学相关语料进行继续预训练,包括中英文数学相关的代码、网页、书籍等。其中,InternLM2-Math-7B/20B分别经过了120B和80B token的继续预训练。
微调阶段使用的指令数据覆盖中英文双语,共计200余万条,包含CoT、工具调用、奖励模型、数据推广等多种形式。
研究人员同时对数据量较少、模型性能交叉的数学知识点进行了数据增广,运用奖励建模对增广数据进行了过滤,删除不可靠的回复。对于数据中的复杂计算过程,研究人员将其扩写为更详细的步骤,使模型减少跳步推理产生的计算幻觉。
代码解释器也看过一篇详细的解释:
针对代码解释器的使用,研究团队分别从基础能力和应用场景下了功夫:
- 基础能力:代码解释器的核心基础能力还是代码,包括 python 库的使用以及通用的代码能力。同时,数学代码解题还涉及基础的数学推理能力。因此,研发团队在预训练和微调阶段针对代码和数学的语料都进行了充分准备,使得 InternLM2 自身的代码和数学推理能力都得到了显著增强。
- 应用场景:在模型自身数学推理和代码两大基础能力显著提升的基础上,再辅以覆盖小初高数学题的数学代码解题数据,和少量高质量数据分析数据,就足以激发出模型的在应用场景中调用代码解释器的能力。由之前视频的例子可以观察到,在面对经济学或者物理题等训练数据范围外的问题,模型依然能稳定表现。
还有一个重要的工具: T-eval
模型应用
开发体系
围观openpass2.0:
OpenCompass2.0同时揭晓了2023年度大模型公开评测榜单,评测结果显示,GPT-4 Turbo在各项评测中均获最佳表现,智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0紧随其后;大语言模型整体能力仍有较大提升空间,复杂推理相关能力仍是短板;中文场景下国内的模型更具优势,中文闭源大模型接近GPT-4 Turbo的水平,开源模型进步很快,以较小的体量达到较高性能水平,表现出较大的发展潜力。