cuda专题
JustForYouForNLP
这个作者很懒,什么都没留下…
展开
-
CUDA中的常量内存__constant__和cudaMemcpyToSymbol
__constant__声明内存为常量内存使用常量内存可以提升运算性能的原因如下:对常量内存的单次读操作可以广播到其他的“邻近(nearby)”线程,这将节约15次读取操作; 高速缓存。常量内存的数据将缓存起来,因此对于相同地址的连续操作将不会产生额外的内存通信量;在CUDA架构中,线程束是指一个包含32个线程的集合,这个线程集合被“编织在一起”并且以“步调一致(Lockstep)”的形式执行。当处理常量内存时,NVIDIA硬件将把单次内存读取操作广播到每个半线程束(Half-Warp).转载 2020-05-27 16:44:20 · 2495 阅读 · 0 评论 -
cudaMallocPitch和cudaMalloc3D用法
cudaMallocPitch:cudaMalloc3D:原创 2020-05-27 16:15:33 · 662 阅读 · 0 评论 -
cuda计时方式
cudaEventElapsedTime计时:#include <cuda_runtime.h>#include <helper_cuda.h>#include <helper_functions.h> // helper utility functions float gpu_time = 0.0f;cudaEvent_t start, st...原创 2019-10-04 15:28:28 · 265 阅读 · 0 评论 -
cuBLAS的使用
cuBLAS包含了三部分:cuBLAS API(从cuda6.0开始) CUBLASXT API(从cuda6.0开始) cuBLASLt API(从cuda10.1开始)想要使用cuBLAS API,必须按照以下步骤:在GPU端建立矩阵或向量,并用初始化数据填充; 调用需要使用的cuBLAS函数; 将在GPU端结果传输回HOST端;cuBLASLt API是一个轻量的矩阵-矩...原创 2019-10-11 11:09:03 · 2274 阅读 · 1 评论