人工智能 - 人工智能的三驾马车算力（通常以 FLOPS 衡量），FLOPS是怎么计算的？

天机️灵韵

已于 2025-02-26 11:44:59 修改

阅读量1.5k

点赞数 18

分类专栏：人工智能文章标签：人工智能 gpu算力

于 2025-02-26 09:32:10 首次发布

本文链接：https://blog.csdn.net/Fx_demon/article/details/145869765

版权

77 篇文章

订阅专栏

在人工智能领域，算力（通常以 FLOPS 衡量）是支撑模型训练和推理的核心资源之一，被称为“三驾马车”（数据、算法、算力）中不可或缺的硬件基础。以下是 FLOPS 的计算方法及其在AI场景中的实际意义：

FLOPS（Floating-Point Operations Per Second）即每秒浮点运算次数，用于量化计算设备的理论峰值算力。

浮点运算：指计算机对小数（如 1.23e-5）进行的加减乘除等基本运算。
常见单位：
- GFLOPS = 10^9 FLOPS（每秒十亿次运算）
- TFLOPS = 10^12 FLOPS（每秒万亿次运算）
- PFLOPS = 10^15 FLOPS（每秒千万亿次运算）。

对于一块计算芯片（如 GPU/TPU），其理论峰值 FLOPS 可通过以下公式估算：

理论峰值 FLOPS=核心数量×时钟频率（GHz）×每周期运算次数×操作位宽系数理论峰值 FLOPS=核心数量×时钟频率（GHz）×每周期运算次数×操作位宽系数

示例：NVIDIA A100 GPU

实际应用中，FLOPS 受内存带宽、并行效率、软件优化等因素影响，通常仅为理论峰值的 30%~70%。例如：

训练 GPT-3（175B 参数）约需 3.14 \times 10^{23} FLOPS（即 314 ZettaFLOPS），需数千块 GPU 运行数周。
计算公式：
总 FLOPS=模型参数量×每参数训练所需浮点运算次数×训练步数总 FLOPS=模型参数量×每参数训练所需浮点运算次数×训练步数
（通常每参数单次迭代需约 6 FLOPS）

训练效率：
- 更高的 FLOPS 可缩短大模型训练时间（如 GPT-4 训练需约 7800 万美元算力成本）。
- 例如，1 ExaFLOPS（10^18 FLOPS）的算力，可在 1 天内完成需 10^23 FLOPS 的任务。
硬件选型：
- GPU：NVIDIA H100 单卡 FP8 算力达 4000 TFLOPS。
- TPU：Google TPU v4 集群算力超 1 ExaFLOPS。
能效比：
- 单位 FLOPS 的能耗（如瓦特/TFLOPS）是评估芯片实用性的关键指标。