GPU
文章平均质量分 69
maowenge
这个作者很懒,什么都没留下…
展开
-
GPU线程运行机制
///****测试在kernel里面交换全局内存的值#include#include#include#includeusing namespace std;const int N=300;__global__ void show(int* a){for(int i=blockIdx.x*blockDim.x+threadIdx.x;ii+=blo原创 2014-11-10 19:03:14 · 1488 阅读 · 0 评论 -
CUDA的安装
目前版本的cuda是很方便的,它的一个安装里面包括了Toolkit`SDK`document`Nsight等等,而不用你自己去挨个安装,这样也避免了版本的不同步问题。1 cuda5.5的下载地址,官方网站即可: https://developer.nvidia.com/cuda-downloads 在里面选择你所对应的电脑版本即可。2 VS2010这个没什么转载 2015-03-16 15:30:32 · 6594 阅读 · 0 评论 -
测试gpu的if判断的加速比
#include#include#include#includeusing namespace std;const int N=123456;const int sample=100;const int threads=256;const int blocks=2048;__global__ void judge(int* da,int* dat原创 2015-01-04 15:44:21 · 877 阅读 · 0 评论 -
测试gpu的加速比
#include#include#include#include#includeusing namespace std;const int Num=10000000;const int threads=256;const int blocks=2048;__global__ void kernel(int* a,int* b,int* c){原创 2014-12-31 23:10:33 · 2390 阅读 · 0 评论 -
检测gpu if的运行
#include#include#include#includeusing namespace std;const int N=500;__global__ void test(int* a,int n){const int tid=blockIdx.x*blockDim.x+threadIdx.x;int i=blockDim.x*gridDim.x*n+ti原创 2014-12-10 16:51:54 · 574 阅读 · 0 评论 -
异步内存、直接复制及流处理复制对比
#include#include#includeusing namespace std;template__device__ void saxpy_unrolled(float *out,const float *px,const float *py,size_t N,float alpha){float x[n],y[n];原创 2015-01-07 22:18:53 · 1451 阅读 · 0 评论 -
cudaDeviceSynchronize的优化
#include#include#include#includeusing namespace std;__global__ void nullKernel(){}int main(void){const int sum=1000000;coutcudaEvent_t start,stop;float time;c原创 2015-01-06 17:37:25 · 5160 阅读 · 1 评论 -
测试原子操作不同的变量
const int N=1000000;__global__ void test(int x,int y,int z){const int tid=threadIdx.x;if(tid==0)for(int i=0;i{ atomicAdd(&x,1);__syncthreads();}//x++;/*for(int i=0;ix++;*/if(原创 2014-11-17 17:32:53 · 467 阅读 · 0 评论 -
测试cuda的unified memory和cudaMemcpy的if判断
////#include//#include//#include//#include//using namespace std;////const int N=1001569;//const int threadPerBlock=256;//////__global__ void aplusb(int *a,int *b,float *c)//{原创 2014-10-28 17:29:42 · 975 阅读 · 0 评论 -
测试cuda的unified memory和cudaMemcpy的加减乘除及空间申请时间对比
#include#include#include#includeusing namespace std;const int N=1234567;const int sample=100;const int threads=256;__global__ void judge(int *da,int *data,int sam){cons原创 2014-10-28 17:28:43 · 1086 阅读 · 0 评论 -
CUDA的Threading:Block和Grid设定
硬件基本架构 实际上在 nVidia 的 GPU 里,最基本的处理单元是所谓的 SP(Streaming Processor),而一颗 nVidia 的 GPU 里,会有非常多的 SP 可以同时做计算;而数个 SP 会在附加一些其他单元,一起组成一个 SM(Streaming Multiprocessor)。几个 SM 则会在组成所谓的 TPC(Texture Processing Clus原创 2015-12-15 11:37:28 · 854 阅读 · 0 评论