快速入门使用tensorRT进行推理
GPU计算时间、排队时间和设备到主机延迟也是在特定场景下需要重点关注的指标,尤其是在计算密集和数据密集型的应用中。batch_size = 64时, througphout = 32613.9 qps,media latency = 0.017334 ms。batch_size 在 ONNX 中会经常设置为动态的, 然后在使用 tensorRT 推理时可以动态指定。随着batch_size的增大,系统吞吐量会下降,平均延迟有所增大。下面看不同batch_size, trt engine的推理时间。
原创
2024-04-01 23:54:11 ·
1515 阅读 ·
0 评论