FP8 浮点数表示法

最新推荐文章于 2025-03-25 09:47:42 发布

mingo_敏

最新推荐文章于 2025-03-25 09:47:42 发布

阅读量2.7k

点赞数 4

分类专栏： Deep Learning 文章标签：人工智能深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shanglianlm/article/details/137217516

版权

Deep Learning 专栏收录该内容

294 篇文章

订阅专栏

FP8是一种独特的8位浮点数表示法，以其高效且精确的特性在数值计算领域崭露头角。FP8采用两种表示方式，分别是E4M3和E5M2，其中E代表指数位（Exponent），M代表尾数位（Mantissa）。在特定的表示范围内，E4M3展现出了更为精确的数值表现，而E5M2则以其更宽广的动态范围见长。相较于传统的FP16（16位浮点数）和FP32（32位浮点数），FP8显著地降低了存储需求，从而提高了计算吞吐能力，使其在资源受限的环境中依然能够发挥出强大的性能。

在这里插入图片描述
数据表示位数的降低，不仅极大地提升了吞吐量和计算性能，虽然在某种程度上牺牲了部分精度，但在通过巧妙运用技术和工程手段，FP8能够展现出与更高精度数据类型相匹敌的结果，同时带来了显著的性能提升和能效改善。

在这里插入图片描述

在性能层面，由于FP8的数据宽度更小，显著减少了显存的占用，降低了通讯带宽的需求，从而大幅提高了GPU内存读写的吞吐效率。在相同的硬件条件下，支持FP8的Tensor Core可以在相同时间内执行更多次的浮点运算，极大地加速了模型的训练和推理速度。

在模型优化方面，FP8的采用促使模型在训练和推理过程中进行量化，这不仅有助于模型的优化和压缩，进一步降低了部署成本，同时也提升了模型的泛化能力和鲁棒性。

与INT8的数值表示相比，FP8在LLM的训练和推理中展现出明显的优势。INT8的数值空间是均匀分布的，而FP8则拥有更宽的动态范围，更能精准地捕获LLM中参数的数值分布，从而在保证计算效率的同时，也确保了模型的精度和性能。

1 Introduction-to-FP8

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

mingo_敏 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。