以混合精度工作
5.以混合精度工作
混合精度是计算方法中不同数值精度的组合使用。 NVIDIA®TensorRT™可以32位浮点,16位浮点或量化的8位整数存储权重和激活,并执行图层。
使用低于FP32的精度会减少内存使用量,从而可以部署更大的网络。 数据传输花费的时间更少,并且计算性能得到提高,尤其是在具有Tensor Core支持该精度的GPU上。
默认情况下,TensorRT使用FP32推理,但它也支持FP16和INT8。 在运行FP16推理时,它将自动将FP32权重转换为FP16权重。
您可以使用以下API在平台上检查支持的精度:
if (builder->platformHasFastFp16())