能下载到的模型普遍都是6/7B(小)、13B(中)、大(130B) 三种,比如ChatGLM 和Llama2 等。这个在数学上有什么讲究吗?
答案很简单,模型大小的设计主要是为了匹配显存。
6B参数的模型可以在12G、16G或24G显存的消费级显卡上进行部署和训练。如果一个公司的模型不打算在消费级显卡上部署,通常不会选择训练6B规模的模型。此外,还有一些1.4B或2.8B参数的模型,这些模型大小适合在手机、车载端进行量化部署。
13B模型在使用4k长度的数据进行训练时,数据并行度为2,刚好可以充分利用一个8卡机的显存,并且可以量化部署在A10甚至是4090显卡上。
更大规模的模型不仅限于130B。目前,常见的更大模型包括16B、34B、52B、56B、65B、70B、100B、130B、170B和220B等。这些模型的规模设计基本上是为了刚好匹配某种规格的算力,无论是用于训练还是推理。如果需要加快训练速度,只需倍增显卡数量即可。例如,我们训练7B模型时以8卡为单位,使用8x8卡进行训练;而训练70B模型时则以80卡为单位,使用80x6卡进行训练。
将大语言模型设计成6/7B、13B和130B等几