1.大模型成为发展通用人工智能的重要途径
近几年业界研究趋势从专用模型向通用大模型转变,通用大模型成为通往通用人工智能的关键途径
2.书生-浦语大模型开源历程
从2023.6月至今已开源InternLM千亿参数大语言模型(7B、20B、123B)、书生-万卷1.0多模态预训练语料库、InternLM-Chat-7B对话模型、Lagent开源智能体框架和InternLM 2
3.InternLM2包含三个模型版本:InternLM2-Base、InternLM2、InternLM2-Chat
4.InternLM2核心工作:新一代的数据清洗过滤
(1)新一代的数据清洗过滤:包含多维度数据价值评估、高质量预料驱动的数据富集、有针对性的数据补齐
(2)在训练深度学习模型时,loss(损失函数)的分布通常会随着训练的进行呈现出一定的规律。以下是一些常见的loss分布情况:
-
初始阶段:刚开始训练时,loss值通常较高。这是因为模型刚刚开始学习,对数据的理解和拟合程度还很低。
-
快速下降阶段:随着训练的进行,模型逐渐学习到数据的一些基本特征和规律,loss值会快速下降。
-
震荡波动阶段:在训练过程中,loss值可能会出现一定程度的波动,特别是在训练后期。这可能是由于模型在某些局部最优解附近徘徊,或者因为学习率设置不当导致模型在训练中“过拟合”或“欠拟合”。
-
收敛阶段:当模型训练接近尾声时,loss值应该会趋于平稳并保持在一个较低且相对稳定的水平,这意味着模型已经在当前参数下对训练数据有了较好的拟合。
-
过拟合现象:如果loss在验证集上持续下降,但在训练集上的loss已经非常低且不再下降,甚至可能上升,则可能存在过拟合问题,即模型过度适应了训练数据,对未见过的数据泛化能力较差。
(3)在自然语言处理(NLP)领域,token是指将文本分割成有意义的基本单元的过程中的结果。这个过程称为分词(Tokenization)。每个token可以是一个单词、标点符号、数字、特殊字符等,具体取决于所使用的分词策略。
例如,对于句子"Hello, world!",按照空格和标点作为边界进行分词后,对应的tokens就是['Hello', ',', 'world', '!']。
在预训练模型如BERT、GPT-3等中,tokens是模型输入和处理的基本单元。这些模型通常会使用WordPiece或Byte Pair Encoding (BPE)等算法进行更细粒度的分词,将词汇表中未出现过的词汇拆分为已知tokens的组合。
此外,在机器学习和深度学习中,token的概念也常常被用于表示序列数据(不仅仅是文本),比如在音乐生成、生物信息学等领域,序列中的每个元素都可以视为一个token。
5.书生-浦语2.0五大亮点:
超长上下文(20万Token)、综合性能全面提升、优秀的对话和创作体验、工具调用能力整体升级、突出的数理能力和实用的数据分析功能
6.InternLM2在推理、数学、代码考试、语言、知识等全方位性能提升,InternLM 2-Chat-20B比肩ChatGPT(GPT3.5)水平
7.应用场景:AI助手、人文关怀对话、想象力创作
8.工具调用能力升级
9.计算能力增强,具备内生计算能力和配套的代码解释器
10.具备使用的数据分析功能
11.从模型到应用的过程存在许多环节
12.从模型到应用典型流程
(1)选型
(2)业务场景复杂度判断
a.复杂场景:部分参数微调、续训/全参数微调
b.简单场景:环境交互-模型评测
(3)环境交互
(4)构建智能体
(5)模型评测
(6)模型部署
13.书生浦语全链条工具体系
(1)多模态预训练语料库:书生万卷
(2)预训练框架:InternLM-Train
(3)微调:Xtunner
(4)部署:LMDeploy
(5)评测:OpenCompass
(6)应用:Lagent、AgentLego
14.多模态预训练语料库:书生万卷1.0、书生万卷CC
15.预训练框架:InternLM-Train
16.微调:Xtunner
17.评测:OpenCompass:包含CompassRank性能榜单、CompassKit评测工具链、CompassHub评测基准社区
18.循环评测的策略更加客观
19.模型部署:LMDeploy:模型轻量化、推理引擎和服务
性能优于vLLM
20.智能体框架Lagent、多模态智能体工具箱AgentLego