tensorRT 与 torchserve-GPU性能对比

joker-G

已于 2022-03-02 22:53:52 修改

阅读量1.6k

点赞数 5

分类专栏：计算机视觉 pytorch 文章标签： python

于 2021-09-15 16:33:02 首次发布

本文链接：https://blog.csdn.net/qq_40415753/article/details/120310630

版权

12 篇文章 1 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

实验对比

前端时间搭建了TensorRT 、 Torchserve-GPU，最近抽时间将这两种方案做一个简单的实验对比。

模型	torch(cpu)	torch(gpu)	onnx(cpu)	onnx(gpu)	TensorRT
resnet18	0.029	0.0024	0.004	-	0.0012
resnet50	0.08	0.0056	0.008	0.0030	0.0018
resnet101	0.16	0.010	0.018	0.0051	0.0032
resnet152	0.23	0.016	0.021	0.0074	0.0045

* 结论：大尺寸图像的信息传输是导致tensorrt耗时较长的主要原因，torchserve-gpu底层为java要比我试验时用flask(python)效率要快。
当使用小尺寸图像，将耗时主要集中在模型推导时，tensorrt的优势就体现出来了。

框架	框架进程	测试并发数	数据量	耗时(s)	CPU
TensorRT+Flask	4	30	2000 1200*720	29s	-
TensorRT+Flask	10	30	2000 1200 720	12.2s	-
Torchserve-GPU	4	30	2000 1200*720	23	-
Torchserve-GPU	10	30	2000 1200*720	11.73	-
Torchserve-CPU	30	30	2000 1200*720	19.3	-

框架	框架进程	测试并发数	数据量	耗时(s)	CPU
TensorRT+Flask	10	30	2000 224*224	3.3	34%
Torchserve-GPU	10	30	2000 224*224	6.83	21%
Torchserve-CPU	30	30	2000 224*224	13	48%

* 实验使用 2000张1200X720像素的图像数据、224X224像素的图像数据分别进行实验。
同时使用30并发测试2000份数据，明显可以看出tensorrt在模型方面的优势。

框架	框架进程	测试并发数	数据量	耗时(s)	CPU
Torchserve-GPU(单卡/四卡)	4	30	2000 1200*720	23/19.9	-
Torchserve-GPU(单卡/四卡)	10	30	2000 1200*720	11.73/8.64	-
Torchserve-GPU(单卡/四卡)	20	30	2000 1200*720	未知/4.76	-
Torchserve-GPU(单卡/四卡)	4	30	2000 224*224	8.14/5.84	-
Torchserve-GPU(单卡/四卡)	10	30	2000 224*224	6.83/2.77	-
Torchserve-GPU(单卡/四卡)	10	30	2000 224*224	未知/2.15	-

TensorRT适合复杂模型，传输方面不会耗费太多资源的算法，如复杂模型推荐。
不太适合大功率http传输的的算法、如cv，要不然大部分资源都浪费在了传输上。
tensorRT主要还是针对模型前向推导的优化。
Torchserve-GPU 在前向推导方面逊色于TensorRT，但是模型搭建便捷。
数据传输方面Torchserve-GPU内部应该有优化，搭建的flask+TensorRT可能存在传输效率问题。
Torchserve-CPU,CPU机器紧缺的情况下可以通过多点普通机器、做高并发，弥补模型推导的缺陷。

关注