Nsight调试笔记

本文介绍了CUDA中低Memcpy/Compute重叠问题的解决方案,重点是通过Nsight手册学习内存优化,特别是如何减少主机与设备间的数据传输。建议包括最小化数据传输,使用中间数据结构,利用固定内存,以及使用异步内存拷贝。示例代码展示了如何通过流(stream)实现计算与内存拷贝的并行,适用于数据可分块传输的情况。此外,还提及了CUDA 2.2及更高版本中的零拷贝技术。
摘要由CSDN通过智能技术生成

Problem 1: Low Memcpy/Compute Overlap

The percentage of time when memcpy is being performed in parallel with compute is low.

Nsight手册第九章 Memory Optimizations

9.1 Data Transfer Between Host and Device

High Priority:

1、Minimize data transfer between the host and the device, even if it means running some kernels on the device gains no performance when compared with running them on the host.

2、Build intermediate data structures and remember to destroyed them.

3、Using pinned memory(就是我们所说的不可分页内存). But don't overuse it.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值