cuda
算法学习者
计算机各种知识学习笔记
展开
-
cuFFT
cuFFT1. IntroductionThis document describes cuFFT, the NVIDIA® CUDA™ Fast Fourier Transform (FFT) product. It consists of two separate libraries: cuFFT and cuFFTW. The cuFFT library is d转载 2017-06-11 22:44:38 · 3447 阅读 · 0 评论 -
cuda 函数前缀:device/global/host 相关问题
在深度学习caffe框架等多处,用到了CUDA函数,使代码加速,其文件类型为XXX.cu。在运行这些CUDA函数时,会遇到一下C++里没有的问题,比如函数前缀问题,如果在修改编写.cu文件时不注意,会出现问题,因此本文在这里讨论一下。主要解决如下问题:error : calling a __host__ function from a __global__ function is not allo...转载 2018-03-08 01:25:15 · 1285 阅读 · 0 评论 -
CUDA中的常量内存__constant__
GPU包含数百个数学计算单元,具有强大的处理运算能力,可以强大到计算速率高于输入数据的速率,即充分利用带宽,满负荷向GPU传输数据还不够它计算的。CUDA C除全局内存和共享内存外,还支持常量内存,常量内存用于保存在核函数执行期间不会发生变化的数据,使用常量内存在一些情况下,能有效减少内存带宽,降低GPU运算单元的空闲等待。使用常量内存提升性能使用常量内存可以提升运算性能的原因如下:对常量内存的单...转载 2018-03-08 01:32:17 · 2821 阅读 · 0 评论 -
CUDA笔记2:概念理解
CUDA基本概念:CUDA全称是ComputeUnified Device Architecture,中文名称即统一计算设备架构,它是NVIDIA公司提出了一种通用的并行计算平台和编程模型。使用CUDA,我们可以开发出同时在CPU和GPU上运行的通用计算程序,更加高效地利用现有硬件进行计算。并行编程的中心思想是分而治之:将大问题划分为一些小问题,再把这些小问题交给相应的处理单元并行地进行处理。在C...转载 2018-03-09 01:10:28 · 459 阅读 · 0 评论 -
【CUDA学习】__syncthreads的理解
__syncthreads()是cuda的内建函数,用于块内线程通信.__syncthreads() is you garden variety thread barrier. Any thread reaching the barrier waits until all of the other threads in that block also reach it. It isdesigned...转载 2018-03-09 02:21:45 · 2869 阅读 · 0 评论 -
CUDA线程协作之共享存储器“__shared__”&&“__syncthreads()”
在GPU并行编程中,一般情况下,各个处理器都需要了解其他处理器的执行状态,在各个并行副本之间进行通信和协作,这涉及到不同线程间的通信机制和并行执行线程的同步机制。共享内存“__share__”CUDA中的线程协作主要是通过共享内存实现的。使用关键字“__share__”声明共享变量,将使这个变量驻留在共享内存中,该变量具有以下特征:位于线程块的共享存储器空间中与线程块具有相同的生命周期仅可通过块内...转载 2018-03-09 02:25:52 · 1631 阅读 · 1 评论 -
CUDA编程-(2)其实写个矩阵相乘并不是那么难
程序代码及图解析:123456789101112131415161718#include <iostream>#include "book.h"__global__ void add( int a, int b, int *c ) { *c = a + b;}int main( void ) { int c; int *dev_c; HANDLE_ERROR( ...转载 2018-03-09 10:54:44 · 542 阅读 · 0 评论 -
#pragma unroll
CUDA在给出的实例程序中出现了不少次的 #prama unroll 的用法,搜集到资料整理如下:1. 官方文档 CUDA C PROGRAMMING GUIDE v6.5 中给出的说明:By default, the compiler unrolls small loops with a known trip count. The #pragma unroll directive however...转载 2018-03-13 15:51:08 · 3828 阅读 · 0 评论 -
cuda 函数前缀:device/global/host 相关问题
在深度学习caffe框架等多处,用到了CUDA函数,使代码加速,其文件类型为XXX.cu。在运行这些CUDA函数时,会遇到一下C++里没有的问题,比如函数前缀问题,如果在修改编写.cu文件时不注意,会出现问题,因此本文在这里讨论一下。主要解决如下问题:error : calling a __host__ function from a __global__ function is not allo...转载 2018-03-14 10:49:16 · 970 阅读 · 0 评论