©PaperWeekly 原创 · 作者 | 胡翔
单位 | 中国人寿研发中心
研究方向 | 对话系统、LLM
2024 是大模型落地应用的关键年,接下来会看到更多从硬件、架构、算法等方面极限挖掘大模型效率的探索。众人拾柴火焰高,相信在大家共同的开源努力下,我们可以更快奔向 AGI 的目标。
——摘自刘知远老师最近对 Google 发布 Gemma 后发的一条朋友圈
写在前面:Google 最近也劲爆放出 Gemma 模型,尽管体量较小,但对比的包括 Llama-2 7B 和 13B,以及风头正劲的 Mistral 7B,其已经在关键基准测试中明显超越了更大的模型。大家都在感叹最强的开源模型易主了。
本文对国内外几个代表性的 sLLMs 进行调研分析,主要解决心中的一些疑惑:
1. 有哪些策略可以充分挖掘 sLLM 的潜能?
2. sLLM 的天花板能到哪?
3. 对于 sLLM 我们有哪些期待?
清华MiniCPM
MiniCPM-2B 参数量为 2.4B,主打端侧部署,其特点是采用了很多策略充分挖掘了 sLLM 的潜力,MiniCPM-2B 的模型在综合性榜单上与 Mistral-7B 相近,整体性能超越了 Llama2-13B、MPT-30B、Falcon-40B 等模型。在 MTBench 榜单上,MiniCPM-2B 也超越了多个代表性开源大模型。
其挖掘小模型性能的主要策略如下,详情可参考 [1]:
模型沙盒实验:在小模型上进行广泛的实验,通过可迁移的配置,获得大模型的最优训练方法。其在 Hyper-parameters、Batch size、Learning Rate、Learning Rate Scheduler、Data Strategy 五个方面进行了模型沙盒研究,充分挖掘了 sLLM 的潜能。
更细致的数据策略:在预训练阶段只使用通用、量大的预训练粗质量数据,而在退火阶段,使用非常广泛的高质量知识和能力数据以及 SFT 的高质量数据,混合入预训练数据进行退火。实验结果表明在退火开始时加入高质量数据的收益远高于在退火完成后的 sft 阶段加入。
sLLM 的上限在哪?
MiniCPM 在实验的过程中,尝试对模型性能与计算量进行拟合,分析并预测模型里的理论 loss 值。其认为如果用他们 WSD 调度器训练策略,在消耗等量计算量时,可以达到约 5 倍模型参数量的 Chinchilla-Optimal 模型(训练数据量为模型参数量的 20 倍)。而持续训练下去,有可能超越更大的 Chinchilla-Optimal 模型。
Github OpenBMB/MiniCPM
https://github.com/OpenBMB/MiniCPM
MiniCPM:揭示端侧大语言模型的无限潜力
https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a