Jetson板卡算力对比 以及NX和Nano板卡上TensorRT加速测试
前言
以下所有测试基于enazoe大佬的yolo-tensorrt项目进行,坏境配置比较简单。
简单测试一下YOLOv4模型在NX和Nano上的推理速度,实际推理速度可能会有波动,如发现问题欢迎大家交流!
Jetson CUDA 算力表:
GPU | 浮点算力(FP16) | 整点算力(INT8) | Compute Capability |
Jetson AGX Xavier | 11 TFLOPS | 32 TOPS | 7.2 |
Jetson Xavier NX | 6 TFLOPS | 21 TOPS | 7.2 |
Jetson TX2 | 1.3 TFLOPS | 不支持 | 6.2 |
Jetson Nano | 0.5 TFLOPS | 不支持 | 5.3 |
Xavier NX 上TensorRT测试:
模型 | 输入尺寸 | 加速精度 | 单帧耗时 | FPS |
YOLOv4 | 608X608 | FP32 | 200 | 5 |
FP16 | 90 | 11 |
INT8 | 60 | 12.5 |
416X416 | FP32 | 110 | 9 |
FP16 | 55 | 18 |
INT8 | 45 | 22 |
模型 | 输入尺寸 | 加速精度 | 单帧耗时 | FPS |
YOLOv4-tiny | 608X608 | FP32 | 35 | 28 |
FP16 | 25 | 40 |
INT8 | 20 | 50 |
416X416 | FP32 | 20 | 50 |
FP16 | 15 | 66 |
INT8 | 15 | 66 |
Nano上TensorRT推理测试:
模型 | 输入尺寸 | 加速精度 | 单帧耗时 | FPS |
YOLOv4 | 608X608 | FP32 | 760 | 1.3 |
FP16 | 570 | 1.7 |
416X416 | FP32 | 377 | 2.6 |
FP16 | 275 | 3.6 |
模型 | 输入尺寸 | 加速精度 | 单帧耗时 | FPS |
YOLOv4-tiny | 608X608 | FP32 | 100 | 10 |
FP16 | 70 | 14.2 |
416X416 | FP32 | 50 | 20 |
FP16 | 35 | 28.6 |