When I was training Transformer based on 12M+ source sentences and equal number of target sentences (batch size equals 4096, platform is 4 × T I T A N X p 4\times{TITAN Xp} 4×TITA
Tensor2Tensor GPU Memory Error During Training
最新推荐文章于 2024-07-23 22:03:39 发布
在使用Tensor2Tensor训练基于Transformer的模型时,遇到GPU内存错误。初始运行顺利,但因实验室其他人占用部分GPU资源导致问题。尝试通过修改GPUOptions的allow_growth参数来限制GPU使用量,但未成功。进一步尝试通过设置CUDA_VISIBLE_DEVICES和--worker_gpu选择特定GPU运行,仍无法避免全GPU使用。最终通过直接修改train_util.py文件,根据指南调整GPUOptions以解决问题。尽管环境变量CUDA_VISIBLE_DEVICES对TensorFlow无效,但在PyTorch中有效。
摘要由CSDN通过智能技术生成