遇到一个折磨我三天的tensorrt的bug,使用的c++的tensorrt做模型推理预测。
情景:使用tensorrt跑本地没有问题,在doinferance推理前后加入msleep模拟计算机计算过程的不稳定延迟,也没有问题。单独使用basler相机取图显示到我的qt界面也没问题。
问题是,当我把相机取图直接交给tensorrt做处理,如果整个流程在330ms内完成(项目中串口发出的信号时间间隔是330ms,相机取一次图),那么一个流程就是好的。但是难免会出现相机卡顿“掉相机“取图慢,tensorrt的doinferance推理也不稳定稍微慢了50ms也是有可能的,那么一个流程就超过了330ms,在进行下一次tensorrt的doinferance推理预测的时候程序会在context.getEngine()崩溃。
解决:将初始化tensorrt模型的runtime、engine、context抽取到全局变量,即可解决。github上源码是局部变量。虽然后面的推理预测只用到了context,engine也是从context中获取。个人猜测,原本的runtime很可能是在栈内存中,程序推理过程或者相机取图卡顿有延迟时,runtime并没有使用被销毁掉了,这个时候再走到context.getEngine()会有空,就会导致程序崩溃。所以要提把runtime、engine取到全局变量就不会被销毁,有计算过程有不稳定的延迟也不会崩溃了。
context对象是和模型初始化的,running、engine是相互关联的。
在这里插入图片描述