10.使用量化网络
量化网络由显式量化和反量化节点组成,以便将张量从FP32转换为INT8,反之亦然。
NVIDIA®TensorRT™支持带有QuantizeLinear和DequantizeLinear节点的量化ONNX模型。
量化张量x
y = saturate((x / y_scale) + y_zero_point), where y ∈ [-128, 127]
消除张量x
y = (x - x_zero_point) * x_scale
TensorRT仅支持[-128,127]范围内的INT8激活和[-127,127]范围内的INT8权重。由于遗留原因,权重的范围与激活的范围略有不同。此外,zero_point必须为0,因为TensorRT仅支持对称量化。
<