一、浮点数的存储方式
二、fp16与bf16的区别
BF16 是对FP32单精度浮点数截断数据,即用8bit 表示指数,7bit 表示小数。
FP16半精度浮点数,用5bit 表示指数,10bit 表示小数;
与32位相比,采用BF16/FP16吞吐量可以翻倍,内存需求可以减半。但是这两者精度上差异不一样,BF16 可表示的整数范围更广泛,但是尾数精度较小;FP16 表示整数范围较小,但是尾数精度较高。
那么,问题来了,两者性能加速比相似,但精度diff不一样,在哪些情况用BF16,哪些用FP16呢&