大模型参数量都是7B,13B和65B等背后的原因是什么?
原创 ully AI工程化 2024-04-15 18:40
不知道大家有没有注意到现在大模型百花齐放,但是模型参数大小却非常一致,基本都是7B,13B,65B等。那么,为什么被设计成这么大呢?
网络上有很多解释,笔者结合自己的理解,分享其中可能的原因。
最直接的就是历史传承,因为最初OpenAI在gpt-3就是这么干的,然后,Meta借鉴了OpenAI的做法,推出了llama的7B,13B,33B,65B四个尺寸。由于llama在开源领域的地位,其他模型厂商都基本遵守了这样的约定,形成了当下的局面。
适配推理设备。特别是对于一些参数量小的模型是为了适配不同级别的GPU显存,常见的显寸大小从4G到80G不等,我们知道显存占用的公式:
模型空间大小 = 参数量 *参数精度
ully,公众号:AI工程化