Share:高性能深度学习支持引擎实战——TensorRT

最新推荐文章于 2024-05-13 08:41:50 发布

zw_tu

最新推荐文章于 2024-05-13 08:41:50 发布

阅读量173

点赞数

文章标签：深度学习人工智能神经网络

本文链接：https://blog.csdn.net/tzwsg/article/details/109359924

版权

总结一下推断（Inference）和训练（Training）的不同：

1）模型固定，可以对计算图进行优化

输入输出大小固定，可以做memory优化（注意：有一个概念是fine-tuning，即训练好的模型继续调优，只是在已有的模型做小的改动，本质上仍然是训练（Training）的过程，TensorRT没有fine-tuning

推断（Inference）的batch size要小很多，仍然是latency的问题，因为如果batch size很大，吞吐可以达到很大，比如每秒可以处理1024个batch，500毫秒处理完，吞吐可以达到2048，可以很好地利用GPU；但是推断（Inference）不能做500毫秒处理，可以是8或者16，吞吐降低，没有办法很好地利用GPU.
推断（Inference）可以使用低精度的技术，训练的时候因为要保证前后向传播，每次梯度的更新是很微小的，这个时候需要相对较高的精度，一般

关注