书生·浦语大模型 第一节课 大模型背景及概况
Background
专用模型 --> 通用大模型–>通用人工智能
chatgpt: 文本类通用大模型(LLM)–>gpt4: 多模态通用大模型
InternLM2的体系
InternLM2具体的处理
数据是提升模型能力的根本
找到好的数据是现阶段增强模型能力的重要一环
InternLM2能力提升
代码,数学和准确的知识仍旧是大模型的弱项
InternLM2工具调用
工具调用是把大模型当作大脑,完成复杂任务的拆解与规划,然后把拆分出的子任务按照其规划好的步骤交给其选择调用的专业性工具(计算器,代码执行器等)完成;该方法解决方法的方式和人类相似,
我们需要关注其高级的思考能力,专业性的事情(如计算等)交给专业性的工具,这些工具可以拓展大模型的能力边界,而对于该大模型本身而言,其无需参与/监督某个子事件的具体处理过程,只要等到结果即可进入下一步操作。这种处理方法,就像是把原先的混乱的,交杂到一起的一整个函数,逐渐拆解成专门的方法函数,而大模型相当于一个智能版本的main()函数,其自主地选择子函数的执行。从编码角度来看,这是一种更有序的状态。
InternLM2计算能力
若要提升大模型的弱势能力,直接调用专业的工具或许是一种更省时省力且效果更好的做法
进一步地,当前的大模型就像是一个大杂烩,未来会不会逐渐地细化,我们要探索出一个个能够处理特定任务的特定化模型(结构),或者说,我们首先要探索出能够充当大脑任务的(和当前大模型能力相当的)模型最小量参数的极限,通过组合它们,组成我们想要的模型,而非一定要在某个小任务上也要上相对任务本身而言的那么大的全量大模型。(类似于细胞组成组织,组织组成的特定功能的器官,器官组成的独立生物一样),解耦!
模型落地应用
落地工具
高质量预料数据
大模型到下游应用的主流方式–二次预训练和指令微调的区别
- 增强训练(二次预训练)
- 有监督微调(指令微调)
- 全参数微调
- 部分参数微调(LoRA)
gpt、llama这种decoder only的预训练任务是next token predict,根据context预测下一个token
二次预训练的话,数据是没有label的;指令微调需要label
二次预训练的label就是这个文本本身;指令微调就是的label就是我们需要的输出
其中,指令微调是一定是类似对话形式的:{input, output};同时,指令微调一般把instruction+input拼一起作为输入,instruction有点类似于任务的描述,也就是prompt层面的不同,本质上和{input,output}这种格式是没区别的,也就是说{instruction+input,output}
当前大模型的能力趋势
在语言,知识能力上,模型到达一定的参数量就达到解决其的能力,而对于数学、推理和代码等需要强逻辑能力的任务上,我们尚且没有探索出解决其能力的参数涌现边界,这或许和当前的纯next token prediction任务是有关的,该任务对于逻辑能力的培养并没有额外的考验与增强?
Reference
本文截图取自《书生·浦语大模型全链路开源体系》课程: https://www.bilibili.com/video/BV1Vx421X72D/