分享时间:2023.2
模型家族
看模型要从演化家族来看,而不能单独看,很多人认为一些能力并不是RLHF激发出来的,而是本来的基础模型就有的。
scaling law和涌现能力
scaling law适用于很多方面(这里指语言的scaling law,不确定cv的),比如模型参数、指令类型数、指令下数据量等。如果横坐标是数据量级的话,干净的数据可以增加曲线斜率,但是依然符合scaling law。
涌现能力:当模型大小<10B时,很多能力没有涌现
模型不同阶段
分三个阶段,有的能力在预训练之后不能被直接观察到,sft时可以被观察到,如果这个能力在预训练可以直接观察到,sft可以变强。大模型:什么都能做什么都做不好,经过sft的小模型,模型六边形效果更好。sft是激发而不是赋予。