问题描述
使用 python API 将onnx模型量化成精度为 int8 的 tensorrt 格式模型,在进行模型推理时遇到下面报错:
pycuda._driver.LogicError: cuStreamSynchronize failed: an illegal memory access was encountered
PyCUDA WARNING: a clean-up operation failed (dead context maybe?)
cuMemFree failed: an illegal memory access was encountered
问题解决:增加max_workspace_size
初始版本的max_workspace_size设置为 1<<30 ,也就是给出模型中任一层能使用的内存上限为 1GB,增加为2GB后,可以正常完成推理。