SRIO实战深入分析：Ping-Pong实现为什么性能反而下降？

本文链接：https://blog.csdn.net/niuTyler/article/details/147583007

活动发起人@小虚竹想对你说：

这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧！我们一起发掘写作的魅力，书写出属于我们的故事。我们诚挚邀请你参加为期14天的创作挑战赛！

提醒：在发布作品前，请将不需要的内容删除。

你的代码确实实现了基本的Ping-Pong缓冲结构，但存在几个关键问题：

memcpy(pBuff[current_buf], rd_rio_transfer.user_mmap_handle[0], mats_sz);
current_buf = (current_buf + 1) % 2;

rio_lower_dma_transfer(
    mport_fd,
    target_destid, 
    pBuff[(current_buf + 1) % 2],  // 使用另一缓冲区
    mats_sz, 
    rio_base_addr);

if (posix_memalign((void**)&pBuff[0], 64, mats_sz) != 0 ||
    posix_memalign((void**)&pBuff[1], 64, mats_sz) != 0)

不必要的内存拷贝：

memcpy(pBuff[current_buf], rd_rio_transfer.user_mmap_handle[0