制作大模型的3个关键:
1. Data: 数量、质量,都有提升;预训练数据量:LLama3是15.6T tokens;LLama2是1.8T tokens;
2. Scale: LLama3是405B参数量,LLama2是70B,相差大约5倍;预训练数据量,相差大约10倍;计算量相差大约50倍(5倍*10倍=50倍),3.8*10^25 FLOPs;
根据Scaling Law,他们得到,Given固定的计算量的前提下(也就是预算钱固定),405B模型这个大小,能获得最强的最终效果;
3. 降低复杂程度:
使用了经典的dense transformer,放弃稀疏MoE,为了让训练更稳定;
使用了SFT+RejectionSampling+DPO,放弃强化学习(不稳定,难以scale)
评测:大量自动benchmark+人工评测;LLama3 405B达到目前最优的GPT4水平;8B、70B,在同等参数量的模型里,是最棒的;帮助性、安全性,很好的平衡了;
多模态:image识别,video识别,voice语音理解;
预训练的作用:学习语言结构;学习知识;
8K context-window的pre-training + 更长的(8~128K)post-training