CUDA call failed lazily at initialization with error: device ＞= 0 && device ＜ num_gpus INTERNAL ASSE

淡定的炮仗

已于 2024-05-17 14:36:15 修改

阅读量1k

点赞数

分类专栏：问题人工智能 python 文章标签：深度学习人工智能

于 2024-04-29 18:34:02 首次发布

本文链接：https://blog.csdn.net/m0_43609475/article/details/138321518

版权

问题同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

人工智能

15 篇文章 3 订阅

订阅专栏

python

9 篇文章 3 订阅

订阅专栏

问题

安装环境运行模型时报错：CUDA call failed lazily at initialization with error: device >= 0 && device < num_gpus INTERNAL ASSERT FAILED at “…/aten/src/ATen/cuda/CUDAContext.cpp”:50, please report a bug to PyTorch.

解决办法

修改文件 /usr/local/lib/python3.8/dist-packages/torch/cuda# vim __init__.py

_cached_device_count: Optional[int] = None
def device_count() -> int:
    r"""Return the number of GPUs available."""
    global _cached_device_count
    if not _is_compiled():
        return 0
    if _cached_device_count is not None:
        return _cached_device_count
    # bypass _device_count_nvml() if rocm (not supported)
    nvml_count = -1 if torch.version.hip else _device_count_nvml()
    r = torch._C._cuda_getDeviceCount() if nvml_count < 0 else nvml_count
    # NB: Do not cache the device count prior to CUDA initialization, because
    # the number of devices can change due to changes to CUDA_VISIBLE_DEVICES
    # setting prior to CUDA initialization.
    if _cached_device_count is None and _initialized:
         _cached_device_count = r
    return r

执行代码的时指定设备

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "2" 
os.environ["WORLD_SIZE"] = "1"

在这里插入图片描述

淡定的炮仗

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
CUDA call failed lazily at initialization with error: device ＞= 0 && device ＜ num_gpus INTERNAL ASSE

安装环境运行模型时报错：CUDA call failed lazily at initialization with error: device >= 0 && device < num_gpus INTERNAL ASSERT FAILED at “…/aten/src/ATen/cuda/CUDAContext.cpp”:50, please report a bug to PyTorch.
复制链接

扫一扫

专栏目录