10.使用量化网络
量化网络由显式量化和反量化节点组成,以便将张量从FP32转换为INT8,反之亦然。
NVIDIA®TensorRT™支持带有QuantizeLinear和DequantizeLinear节点的量化ONNX模型。
量化张量x
y = saturate((x / y_scale) + y_zero_point), where y ∈ [-128, 127]
消除张量x
y = (x - x_zero_point) * x_scale
TensorRT仅支持[-128,127]范围内的INT8激活和[-127,127]范围内的INT8权重。由于遗留原因,权重的范围与激活的范围略有不同。此外,zero_point必须为0,因为TensorRT仅支持对称量化。
<
本文详细介绍了如何使用TensorFlow进行量化意识训练(QAT),并将其转换为ONNX量化模型,最后在TensorRT中导入和运行这些量化模型。重点讨论了量化张量的范围限制、对称量化以及TensorFlow到ONNX的转换过程。
订阅专栏 解锁全文
4106

被折叠的 条评论
为什么被折叠?



