DeepSeek 的大模型过去一个月引发了广泛关注。有人说DeepSeek 的大模型比ChatGPT的节省算力。
按照开发惯例,花在模型训练的时间和 GPU矩阵的搭建开发成本本来就应该纳入成本之中的。
所以成本至少包括GPU矩阵成本+开发费用(含人力运营)+模型训练的电费学习费用等(注意这个是海量的费用)。
1、GPU矩阵成本
DeepSeek 使用的英伟达 GPU 市场价格比美国企业使用的尖端产品便宜 1~3 成左右(限运,只能使用核心限速的中国特供版)。
DeepSeek 使用了大概 2000~3000 块 H800(H100 的中国特供版),开发出了 AI 模型“V3”。使用的 GPU 总额单纯计算约合人民币 3.85 亿元~ 7.21 亿元。
2、开发费用(含人力运营等成本)
DeepSeek 称,V3 的开发费用约为 557.6 万美元。
3、模型训练的电费学习费用等
接着假设让 AI 学习 278.8 万小时,每小时费用为 2 美元,这个费用与美国的 AI 模型相比不到十分之一。东京大学教授松尾丰指出,“AI 模型的开发需要数十次、数百次的反复试验,在约 280 万小时的学习之前也花费了相当的调试时间。
结论:DeepSeek所用GPU或比尖端产品便宜1~3成,训练费用比美国的 AI 模型低,总体成本低于美国的 AI 模型。