在使用Tensorflow 分布式训练出现的Non-OK-status: GpuLaunchKernel问题
项目场景:
使用Tensorflow的keras进行模型构建,然后使用tf.distribute.MirroredStrategy进行多gpu训练
问题描述
在调试完其他部分然后开始训练,执行model.fit语句时报出了下面的错误,之后程序就停止运行了。
Non-OK-status: GpuLaunchKernel( SwapDimension1And2InTensor3UsingTiles<T, NumThreads, TileLongSide, TileShortSide>, total
原创
2022-05-09 16:46:56 ·
980 阅读 ·
0 评论