看到的新闻都是说大模型有几千万的参数。但是实际用模型的时候,都是下载,几百兆或者一两G的模型。
比较:
一个是参数量,一个是模型大小。
模型除了参数之外,还包括网络架构信息和优化器信息等。
有一个模型参数量是1M(数量的1M是一百万),在一般的深度学习框架中(比如说PyTorch),一般是32位存储。32位存储的意思就是1个参数用32个bit来存储。那么这个拥有1M参数量的模型所需要的存储空间的大小即为:1M * 32 bit = 32Mb = 4MB。
即1M(一百万)的参数,需要的存储空间是4M。加上网络架构信息和优化器信息等,肯定更大。
由此推理(都是大约):
1千万的参数,40M
一亿的参数,400M
10亿的参数,4G
1000亿的参数,400G
1w亿的参数,4000G
因为1 Byte = 8 bit。现在的quantization技术就是减少参数量所占的位数:比如用8位存储,那么:所需要的存储空间的大小即为:1M * 8 bit = 8Mb = 1MB。
然后验证一下:
已知:Bert的Base model参数大小是110M(110million的参数),Bert的Base model的模型大小是400M。
差不多,就是参数量1M,内存对应4M。 也就是bert base是1亿的参数量.现在模型都搞到1w亿了。阔怕