DGPU共享内存的问题

        之前有介绍怎么用cudaIpcGetMemHandle,cudaIpcOpenMemHandle来开发共享内存,遇到了CUDA 208(cudaErrorAlreadyMapped = 208)错误。由于CUDA代码不开源,只能自己摸索分析下。

        首先cudaIpcOpenMemHandle的208错误不是必现的,程序运行一段时间,就会偶现。开始觉得是不是大量使用资源,导致资源不够用了。文档上说“If the memory handle has already been opened by the current context, the reference count on the handle is incremented by 1 and the existing device pointer is returned.”, 那就是在同一个进程,如果已经打开过一次,就会将引用加1,208可能是打开的时候有冲突。208怎么能快速重现?

static GMutex mutex;
void *func(void *ptr) {
	//const char *msg = (const char *) ptr;
  volatile shmStruct *shm = NULL;
  shm = (volatile shmStruct *)ptr;
  int frame_size = shm->data.frame_size;
  //g_mutex_lock (&mutex);
  cudaError_t err = cudaIpcOpenMemHandle(&ptr, *(cudaIpcMemHandle_t *)&shm->memHandle, cudaIpcMemLazyEnablePeerAccess);
  if(err  != 0)
    printf("err:%d\n", err);
  //g_mutex_unlock (&mutex);

  //printf("thread quit\n");
  return NULL;
}

  cudaError_t err = cudaIpcOpenMemHandle(&ptr, *(cudaIpcMemHandle_t *)&shm->memHandle, cudaIpcMemLazyEnablePeerAccess);
  if(err  != 0)
    printf("err:%d\n", err);

  printf("100 open\n");
  for(int i = 0; i < 1000; i++){
    cudaError_t err = cudaIpcOpenMemHandle(&ptr, *(cudaIpcMemHandle_t *)&shm->memHandle, cudaIpcMemLazyEnablePeerAccess);
    if(err  != 0)
      printf("err:%d\n", err);
  }

如果使用多线程反复同时调用cudaIpcOpenMemHandle,程序就能很快重现208错误。那既然同时调用有冲突,那可以加个锁,如上注释部分。加了锁之后,208错误就不能重现了。

<think>好的,用户现在想知道如何读取DGpu的设备编号。之前他们询问了如何在Ubuntu 24.04检测AMD独立显卡的使用率,现在这个问题应该是在使用过程中遇到了需要指定设备编号的情况,比如多显卡环境下或者在使用某些工具时需要明确设备号。 首先,我需要回顾之前的回答,其中提到过通过sysfs接口读取使用率时可能需要根据实际的设备编号调整card0。用户可能在使用类似`/sys/class/drm/card0/device/gpu_busy_percent`的命令时发现card0并不是他们的AMD显卡,或者系统中有多个显卡设备,需要确认正确的编号。 接下来,我需要整理几种常见的方法来帮助用户确定正确的设备编号。常见的方法包括使用lspci命令、检查/sys/class/drm目录、使用hwloc工具以及检查内核日志。这些方法各有优缺点,需要逐一解释清楚,确保用户能够理解并选择合适的方法。 另外,用户可能需要区分集成显卡和独立显卡,特别是在多GPU系统中。比如,使用lspci时,AMD的独立显卡通常会有特定的VGA控制器标识,而集显可能是其他厂商的。此外,通过检查设备路径中的渲染设备名称(如card0、card1)以及对应的PCI地址,用户可以将设备编号与实际硬件对应起来。 还要考虑到用户可能遇到的问题,例如权限不足,需要将用户加入video或render组,或者设备编号在系统重启后发生变化。这些潜在的问题需要在解答中提及,帮助用户避免常见陷阱。 最后,确保回答结构清晰,步骤明确,并且给出验证方法,比如通过DRI_PRIME指定设备来确认是否使用了正确的显卡。同时,提供一个总结性的步骤列表,方便用户快速操作。</think>在Ubuntu系统中读取独立显卡(dGPU)设备编号,可通过以下分步方案实现: --- ### 一、基础识别方法 #### 方法1:通过PCI总线号定位 ```bash lspci -v | grep "VGA compatible controller" -A 12 ``` - **输出特征**: - AMD独显会显示`Advanced Micro Devices, Inc. [AMD/ATI]`开头的设备描述 - 首行开头的地址即PCI编号,格式如`0000:0a:00.0` #### 方法2:查看DRM设备目录 ```bash ls -l /sys/class/drm/ ``` - **典型输出**: ``` card0 -> ../../devices/pci0000:00/0000:00:03.1/0000:0a:00.0/drm/card0 card1 -> ../../devices/pci0000:00/0000:00:08.1/0000:0b:00.0/drm/card1 ``` - `cardX`编号对应物理设备 - PCI地址`0000:0a:00.0`对应`card0` --- ### 二、精准匹配显卡类型 #### 步骤1:提取渲染设备信息 ```bash grep -i "amdgpu" /sys/kernel/debug/dri/*/name ``` - **输出示例**: ``` /sys/kernel/debug/dri/0/name: amdgpu /sys/kernel/debug/dri/1/name: i915 ``` - `dri/0`对应AMD显卡(amdgpu驱动) #### 步骤2:绑定设备编号 ```bash ls -l /dev/dri/by-path/ ``` - **输出示例**: ``` pci-0000:0a:00.0-card -> ../card0 pci-0000:0b:00.0-card -> ../card1 ``` - PCI地址`0000:0a:00.0`对应`card0` --- ### 三、自动化识别脚本 ```bash #!/bin/bash for card in /sys/class/drm/card*/device/uevent; do echo "设备路径: $(dirname $card)" grep "PCI_SLOT_NAME" $card grep "DRIVER" $card echo "------------------------" done ``` - **输出解析**: ``` 设备路径: /sys/class/drm/card0/device PCI_SLOT_NAME=0000:0a:00.0 DRIVER=amdgpu ------------------------ 设备路径: /sys/class/drm/card1/device PCI_SLOT_NAME=0000:0b:00.0 DRIVER=i915 ``` --- ### 四、多GPU系统验证 #### 测试渲染设备归属 ```bash DRI_PRIME=1 glxinfo -B | grep "OpenGL renderer" ``` - 若输出显示AMD GPU型号,则`DRI_PRIME=1`对应的`cardX`即为dGPU #### 对比PCI地址与lspci ```bash lspci -nn | grep -i "VGA\|AMD" ``` - **示例输出**: ``` 0a:00.0 VGA compatible controller [0300]: Advanced Micro Devices, Inc. [AMD/ATI] Navi 21 [Radeon RX 6800/6800 XT] [1002:73bf] ``` --- ### 五、设备编号变化处理 1. **持久化标识**: ```bash udevadm info -q path -n /dev/dri/card0 | grep -o "card[0-9]" ``` 2. **创建符号链接**: ```bash sudo ln -s /dev/dri/card0 /dev/amd_gpu ``` > **注意**:若系统中有核显+独显组合,通常`card0`为默认渲染设备,但具体排序可能因硬件插槽位置而变化。建议通过PCI地址而非card编号进行持久化操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

山西茄子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值