简述
在之前的两篇博客基础上,继续写下通过TensorRT加速onnx模型的速度与精度提升了多少,主要是通过github上开源的代码onnx_tensorrt来优化加载onnx进行加速。onnx_tensorrt环境配置有点麻烦,需要相对应的onnx与tensorrt与onnx_tensorrt的版本。我的版本为:onnx = 1.4.0 + tensorrt = 5.1.5.0 + onnx_tensorrt = 5.1 。 NVIDIA官方issues里面有许多关于tensorrt版本的问题,不过建议按照对应的成功版本,按照onnx_tensorrt的步骤进行安装onnx_tensorrt库。当然,文末有我提交docker版本的onnx_tensorrt镜像。另外:我的之前两篇pointpillars点云算法链接如下:
pointpillars点云算法TensorRT环境加速系列一
pointpillars点云算法TensorRT环境加速系列二
同时,我的主要代码会提交到github上面:点击传送门。如果觉得有用,还请star一下哈。
Compare pfe.onnx ONNX with TensorRT
首先我们来进行pfe.onnx模型验证,通过两种方式进行加载:1、直接通过onnx方式进行加载预测;2、通过onnx_tensorrt进行加载来优化加速;注:因为之前博客已经对比过onnx加载输出与原始的pytorch模型对比过精度,损失系数在小数点后三位。那么,我们现在直接用onnx_tensorrt加速对比onnx方式即可。
onnx方式直接加载,请参考我的上一篇博客,下面我们来看下通过onnx_tensorrt加速优化的主要部分代码:
def tensorrt_backend_pfe_onnx():
    pillar_x = np.ones([1, 1, 12000, 100], dtype=np.float32)
    pillar_y = np.ones([1, 1, 12000, 100], dtype=np.float32)
    pillar_z = np.ones([1, 1, 12000, 100], dtype=np.float32)
    pillar_i = np.ones([1, 1, 12000, 100], dtype=np.float32)
    num_points_per_pillar = np.ones([1, 12000], dtype=np.float32)
    x_sub_shaped = np.ones([1, 1, 12000, 100], dtype=np.float32)
    y_sub_shaped = np.ones([1, 1, 12000, 100], dtype=np.float32)
    mask = np.ones([1, 1, 12000, 100], dtype=np.float32)
    pfe_inputs = [pillar_x, pillar_y, pillar_z, pillar_i, num_points_per_pillar,
                  x_sub_shaped, y_sub_shaped, mask]
    print("pfe_inputs length is : ", len(pfe_inputs))
    start = time.time()
    pfe_model = onnx.load("pfe.onnx")
    engine = backend.prepare(pfe_model, device="CUDA:0", max_batch_size=1)
    for i in range(1, 1000):
        pfe_outputs = engine.run(pfe_inputs)
    end = time.time()
    print('inference time is : ', (end - start)/1000)
    print(pfe_outputs)
Now,看完主要的tensorrt的测试代码,看一下通过onnx_tensorrt优化后的输出与onnx直接加载方式的输出对比吧。
 
Compare rpn.onnx ONNX with TensorRT
Ok,我们接下来需要对rpn.onnx来对比tensorrt的加速精度。由于中间涉及pillarscatter网络,我们目前就单独测试rpn.onnx的输出精度与onnx加载rpn.onnx的输出精度。
rpn.onnx(onnx直接加载的方式同理参考上一篇博客即可)经过tensorrt优化的加速代码如下:
def tensorrt_backend_rpn_onnx():
    rpn_input_features = np.ones([1, 64, 496, 432], dtype=np.float32)
    rpn_start_time = time.time()
    rpn_model = onnx.load("rpn.onnx")
    engine = backend.prepare(rpn_model, device="CUDA:0", max_batch_size=1)
    for i in range(1, 1000):
        rpn_outputs = engine.run(rpn_input_features)
    rpn_end_time = time.time()
    print('rpn inference time is : ', (rpn_end_time - rpn_start_time)/1000)
    print(rpn_outputs)
我们来对比一下rpn.onnx模型经过onnx直接加载方式与tensorrt优化的对比输出结果:(注:此处的rpn输出与上一篇博客数据不同,主要原因在于这里rpn输入是设置np.ones矩阵,上一篇是直接接PillarScatter网络的输出作为输入。)
 
ONNX与TensorRT的时间对比如下
| Time/s | pre-process | pfe.onnx | pillarscatter | rpn.onnx | post-process | all | 
|---|---|---|---|---|---|---|
| onnx | N/A | 0.26035 | N/A | 0.198846 | N/A | N/A | 
| tensorrt | N/A | 0.01116 | N/A | 0.0187535 | N/A | N/A | 
上面表格中可以看出pfe.onnx与rpn.onnx的计算性能提升对比,N/A代表还未进行测试。目前只是单独测试了一下,并没有进行系统测试,数据仅供参考。
onnx_tensorrt的docker镜像源:
docker pull smallmunich/onnx_tensorrt:latest
小结
由于pfe.onnx与rpn.onnx中间嵌入了一个pillarscatter网络,所以系统测试的话需要对其进行改写,后期可能会将这部分的torch代码修改为纯python版本来进行全程测试吧。目前单独测试pfe.onnx与rpn.onnx精度损失较少,速度优化很大提升。后面,可能系统测试一下整体的速度优化比例,用python代码实现pillarscatter部分网络,具体请等待我的github更新。
参考文献
https://arxiv.org/abs/1812.05784
https://github.com/SmallMunich/nutonomy_pointpillars
https://blog.csdn.net/Small_Munich/article/details/101559424
https://blog.csdn.net/Small_Munich/article/details/102073540
 
                       
                             
                         
                             
                             
                           
                           
                             本文对比了使用TensorRT和直接加载ONNX模型在pfe.onnx和rpn.onnx上的速度与精度。通过TensorRT优化,pfe.onnx和rpn.onnx的计算性能显著提升,精度损失较小。实验结果显示,TensorRT在模型加速方面表现优秀。
本文对比了使用TensorRT和直接加载ONNX模型在pfe.onnx和rpn.onnx上的速度与精度。通过TensorRT优化,pfe.onnx和rpn.onnx的计算性能显著提升,精度损失较小。实验结果显示,TensorRT在模型加速方面表现优秀。
           
       
           
                 
                 
                 
                 
                 
                
               
                 
                 
                 
                 
                
               
                 
                 扫一扫
扫一扫
                     
              
             
                   27万+
					27万+
					
 被折叠的  条评论
		 为什么被折叠?
被折叠的  条评论
		 为什么被折叠?
		 
		  到【灌水乐园】发言
到【灌水乐园】发言                                
		 
		 
    
   
    
   
             
            


 
            