【TensorRT】Jetson XAVIER NX上Yolov4-TensorRT8.2速度与显存记录表(后续不断补充)

8 篇文章 0 订阅
8 篇文章 0 订阅

Yolov4-TensorRT8.2速度与显存记录表

精度模式图像尺寸类别数批次线程数推理时间完整处理时间显存
FP3220W 2CORE512*512311100ms110ms2.6G
FP3220W 2CORE512*512312100ms111ms3.8G
FP1620W 2CORE512*51231137ms46ms1.7G
FP1620W 2CORE512*51231238ms48ms2.1G

说明:
1.模式是指Jetson设备的功耗模式,对于本人的Jetson XAVIER NX来说,总共有8种模式,如果想达到最大推理速度的话,选择20W 2CORE模式。在主界面的右上角有个MODE的选择,选择20W 2CORE模式即可。
(本人选择20W 6CORE测试下来跟20W 2CORE差不多,只快了1ms,所以选择20W 2CORE即可)

请添加图片描述

2.推理时间是指平均每张图进行doInference(即执行cudaMemcpyAsync)所需要的推理时间。
完整处理时间推理时间加上前处理与后处理时间。

3.对于Jetson设备来说,CPU和GPU共用,所以显存就是内存。对于Jetson XAVIER NX来说内存总共8G。
而查看的方式不能直接使用nvidia-smi的命令行,必须安装jetson-stats。
具体操作方式可参考以下博客。
Jetson设备上查看显存(内存)——jetson-stats

4.为什么本人会有8个模式,而且这个系统下的TensorRT是8.2.1.8版本,不是7版本,猜测原因是在最初烧录系统的时候使用的镜像是比较新的。
而且相比TensorRT7版本,在FP32模式下速度快了近20ms,在FP16模式下快了5~10ms,具体可以看本人之前的博客。
Jetson XAVIER NX上yolov4-TensorRT7速度与显存记录表(后续不断补充)

5.本人是将onnx模型转化为engine模型,yolov4的onnx模型在FP16模式下转化为engine模型的时间比较漫长,在之前的TensorRT7版本需要49分钟,在TensorRT8.2版本下需要10分钟。
也由此可见TensorRT8在序列化模型时做了一定的加速处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值