gpu之间数据传输-cudaMemcpyPeerAsync，cudaMemcpyPeerAsync、cudaEventRecord-CSDN博客

本文链接：https://blog.csdn.net/qq_43594926/article/details/132498124

要在第 tid 个 GPU 上的 dev_Ex[tid] 数据传送到第 tid+1 个 GPU 上的 dev_Ex[tid+1]，需要使用 cudaMemcpyPeerAsync 函数和 CUDA 事件来确保传输的顺序性和正确性。下面是一个示例代码，展示如何实现这个数据传输并使用事件和流来保证正确的传输顺序：

cudaSetDevice(gpuMapping[tid]);

if (tid < NUM_GPUS - 1) {
    cudaSetDevice(gpuMapping[tid + 1]);
    
    // 在目标 GPU 上创建一个事件
    cudaEvent_t event;
    cudaEventCreate(&event);
    
    // 在源 GPU 上的流中记录事件
    cudaEventRecord(event, stream[gpuMapping[tid]]);
    
    // 等待源 GPU 上的事件完成
    cudaStreamWaitEvent(stream[gpuMapping[tid + 1]], event, 0);
    
    // 进行数据传输
    cudaMemcpyPeerAsync(dev_Ex[gpuMapping[tid + 1]], gpuMapping[tid + 1], dev_Ex[gpuMapping[tid]], gpuMapping[tid], chunkSize * sizeof(float), stream[gpuMapping[tid + 1]]);
    
    // 在目标 GPU 上的流中记录传输完成事件
    cudaEventRecord(event, stream[gpuMapping[tid + 1]]);
    
    // 销毁事件
    cudaEventDestroy(event);
}

在这个示例中，首先在源 GPU 上的流中记录一个事件，然后在目标 GPU 上的流中等待这个事件。这样可以确保传输操作在正确的顺序下进行，避免了数据的竞争和错误。在传输完成后，再在目标 GPU 上的流中记录传输完成的事件。这种方式可以保持数据传输的正确顺序。
实现将第 tid 个GPU上的 dev_Hx[tid] 和 dev_Ex[tid] 数据传输到第 tid + 1 个GPU上：

cudaMemcpyPeerAsync(dev_Hx[gpuMapping[tid + 1]], gpuMapping[tid + 1], (void*)dev_Hx, gpuMapping[tid], chunkSize * sizeof(float), stream[gpuMapping[tid + 1]]);

这句代码的目的是将第 tid 个GPU上的 dev_Hx[tid] 数据异步传输到第 tid + 1 个GPU上的 dev_Hx[tid + 1]。cudaMemcpyPeerAsync 函数的第一个参数是目标GPU上的内存指针，第二个参数是目标GPU的ID，第三个参数是源GPU上的内存指针，第四个参数是源GPU的ID，第五个参数是要传输的数据大小，第六个参数是传输所使用的流。
cudaMemcpyPeerAsync(dev_Ex[gpuMapping[tid + 1]], gpuMapping[tid + 1], dev_Ex[gpuId], gpuMapping[tid], chunkSize * sizeof(float), stream[gpuMapping[tid + 1]]);

这句代码的目的是将第 tid 个GPU上的 dev_Ex[tid] 数据异步传输到第 tid + 1 个GPU上的 dev_Ex[tid + 1]。与上面的代码类似，也是通过 cudaMemcpyPeerAsync 函数来实现。

在这两句代码中，第一个参数表示目标GPU上的内存地址，第二个参数表示目标GPU的ID，第三个参数表示源GPU上的内存地址，第四个参数表示源GPU的ID，第五个参数表示要传输的数据大小，第六个参数表示传输使用的流。

要实现将第 tid 个GPU上的 dev_Ex[tid] 传输到第 tid + 1 个GPU上的 dev_Ex[tid + 1]，需要确保这两句代码在正确的线程（即在第 tid 个GPU上）上执行，同时确保传输的大小、流等参数正确设置。此外，还要确保在每次传输之前，使用 cudaEventRecord 来标记事件，以便确保传输顺序的正确性。

这里是如何使用 `cudaMemcpyPeerAsync`、`cudaEventRecord` 和流来确保传输顺序的正确性：

// ...

#pragma omp parallel num_threads(NUM_GPUS)
{
    int tid = omp_get_thread_num();
    int gpuId = gpuMapping[tid];

    cudaSetDevice(gpuId);

    // ...

    // 传输到下一个 GPU
    if (tid < NUM_GPUS - 1) {
        cudaSetDevice(gpuMapping[tid + 1]);
        
        // 等待上一个 GPU 的事件
        cudaStreamWaitEvent(stream[gpuMapping[tid + 1]], event[gpuMapping[tid]][1], 0);
        
        // 进行数据传输
        cudaMemcpyPeerAsync(dev_Ex[gpuMapping[tid + 1]], gpuMapping[tid + 1], dev_Ex[gpuId], gpuMapping[tid], chunkSize * sizeof(float), stream[gpuMapping[tid + 1]]);
        cudaEventRecord(event[gpuMapping[tid + 1]][0], stream[gpuMapping[tid + 1]]);
    }

    // ...

    // 等待本 GPU 的事件
    cudaStreamWaitEvent(stream[gpuId], event[gpuMapping[tid]][0], 0);

    // ...

    // 数据传输到前一个 GPU
    if (tid > 0) {
        cudaSetDevice(gpuMapping[tid - 1]);

        // 进行数据传输
        cudaMemcpyPeerAsync(dev_Ex[gpuMapping[tid - 1]], gpuMapping[tid - 1], dev_Ex[gpuId], gpuMapping[tid], chunkSize * sizeof(float), stream[gpuMapping[tid - 1]]);
        cudaEventRecord(event[gpuMapping[tid - 1]][1], stream[gpuMapping[tid - 1]]);
    }

    // ...

    // 等待所有 GPU 完成操作
    #pragma omp barrier
}

// ...