基于GPUDirect RDMA的GPU和FPGA通信

最新推荐文章于 2025-03-14 22:04:01 发布

weijitao

最新推荐文章于 2025-03-14 22:04:01 发布

阅读量9.8k

点赞数 6

分类专栏：杂集

本文链接：https://blog.csdn.net/weijitao/article/details/86692594

版权

杂集专栏收录该内容

8 篇文章

订阅专栏

FPGA和GPU作为数据处理加速平台，在某些应用方面能够很好的替代CPU的计算工作。传统的CPU、FPGA和GPU之间的通信如下图所示：

FPGA和GPU都作为PCIE设备，通过PCIE总线与CPU进行通信。如果FPGA和GPU直接需要有数据的交互，传统的方式就是FPGA通过DMA把数据先传输到主机RAM，然后GPU再通过DMA从主机RAM读取数据。这样一个流程走下来，很明显的缺点是总体吞吐会降低，延迟也会增加。

GPU和FPGA之间如何直接通信呢？Nvdia驱动提供一个称为GPUDirect RDMA的API接口，通过此接口可以获取GPU memory的总线地址，这样就可以作为FPGA DMA读/写的源/目的地址。不过目前只有NvidIa的Quadro和Tesla这些少数的专业级GPU支持GPUDirect RDMA。

GPUDirect RDMA主要的API接口有：

int nvidia_p2p_get_pages(
    uint64_t p2p_token,
    uint32_t va_space,
    uint64_t virtual_address,
    uint64_t length,
    struct nvidia_p2p_page_table **page_table,
    void (*free_callback)(void * data),
    void *data

参数：

virtual_address : GPU内存buffer虚拟地址

length ： GPU内存buffer的长度

nvidia_p2p_page_table : 输出参数，返回映射的物理页的个数及每页的物理地址。（页大小为64KB）

free_callback : 回调函数，在nvidia_p2p_put_pages API函数中调用

int nvidia_p2p_put_pages(
    uint64_t p2p_token,
    uint32_t va_space,
    uint64_t virtual_address,
    struct nvidia_p2p_page_table *page_table
)

此API接口用来释放page_table指针所指向的物理页。

基于Xilinx XDMA驱动做测试时，新创建一个混杂设备，其文件操作集函数主要是ioctl，用来实现上述两个API接口的PINNING GPU MEMORY和UNPINNING GPU MEMORY的功能。具体可参照gdrcopy（https://github.com/NVIDIA/gdrcopy）的实现。

XDMA驱动中DMA缓存区是用Scatter/Gatter链表链接起来的，sgm_get_user_pages函数就是根据用户层传递下来的申请的虚拟内存地址来映射物理页表，并建立一个scatterlist，然后再填写DMA描述符表时用到。但是这里由于先通过nvidia_p2p_get_pages映射了物理页表，并保存在nvidia_p2p_page_table结构体中。所以需要重新实现一个函数来将nvidia_p2p_page_table中映射好的页表信息填入DMA描述符表中。