GPU并行运算与CUDA编程--基础篇

1.GPU与CPU

在这里插入图片描述
CPU:
1、为了尽量降低获取数据的延迟
2、更多的资源去控制逻辑
GPU:
1、为了做更多的高通量的并行计算
2、更多的资源去做计算

CPU有更大的缓存,能够一次性访问更多的数据,而GPU中计算单元占据着主导,通过高通量的数据吞吐,并行运算,达到甚至超越CPU的计算能力。
在这里插入图片描述
从上图可以看到CPU中每个线程相比之下等待数据的时间更少,而GPU通过多个线程的并行运行,从另一方面提高了计算速度。

2.GPU程序一般步骤

1.在GPU端分配内存空间
2.CPU传输数据给GPU
在这里插入图片描述
3.GPU做运算
在这里插入图片描述

4.GPU把计算结果传输回CPU
在这里插入图片描述

3.一个简单的GPU程序示例

#include <stdio.h>
#include "device_launch_parameters.h"
#include "cuda_runtime.h"

__global__ void HelloFromGPU(void)
{
	printf("Hello World From GPU!\n");
}

int main(void)
{
	printf("Hello World From CPU!\n");
	HelloFromGPU <<<1, 5 >>> ();
	cudaDeviceReset();
	return 0;
}

函数前缀:
为__global__代表该函数在GPU上运行。
为__host__代表该函数在CPU上运行。

特殊的符号:
<<<x,y>>>
x代表grid中的block数。
y代表一个block的线程数。

运行结果:
在这里插入图片描述
可以看到CPU打印了1条语句,接着GPU打印了5条语句。

4. GPU的内存管理

三个函数:

cudeMalloc(void ** pointer, size_t nbytes)//内存分配
cudaMemset(void* pointer, int value, size_t count)//内存设置
cudaFree(void* pointer)//内存释放

一个例子:

int nbytes = 1024*sizeof(int)
int* d_a = 0;
cudaMalloc((void**)&d_a, nbytes);//创建了nbytes大小的内存空间
cudaMemset(d_a, 0, nbytes);//全部设置为0
cudaFree(d_a);//释放

5.GPU的拷贝函数

__host__cudaMemcpy(void*dst, void*src, size_t nbytes, cudaMemcpyKind direction)

Tips:1、该函数只有才copy完成后才会返回
2、在copy过程中会block CPU的线程
3、上一个CUDA命令执行完毕后才会开始copy

cudaMemcpyKind有如下类型 :
cudaMemcpyHostToDevice(从CPU到GPU)
cudaMemcpyDeviceToHost(从GPU到CPU)
cudaMemcpyDeviceToDevice(从GPU到GPU)

KUDA也提供了一个异步的拷贝函数,不会阻断CPU的执行:

cudaMemcpyAsync();

6. Share Memory与Global Memory

通常一个block会占用一个share memory,block中的线程均可以自由访问。

分配share memory:

__shared__ int a[SIZE]

而global memory是一个grid中共用的内存,线程访问的时候效率很低。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
CUDA编程是一种用于GPU并行计算的编程模型,它由NVIDIA推出并应用于其显卡产品系列。通过CUDA编程,开发者可以利用GPU并行计算能力来加速各种计算任务。下面是一些关于CUDA编程GPU并行计算的重要概念: 1. GPU:图形处理器(Graphics Processing Unit)是一种专门用于处理图形和并行计算的硬件设备。与传统的中央处理器(CPU)相比,GPU具有更多的核心和更高的内存带宽,适合并行计算任务。 2. CUDA:Compute Unified Device Architecture(CUDA)是一种并行计算平台和编程模型,用于利用GPU进行通用目的的并行计算。CUDA提供了一套API和工具,使开发者能够直接在GPU上编写并运行并行计算代码。 3. 核函数(Kernel Function):在CUDA编程中,开发者可以定义一个称为核函数的特殊函数。核函数在GPU并行执行,并且每个线程都会独立地执行该函数。通过合理设计核函数,开发者可以利用GPU并行计算能力来加速各种计算任务。 4. 线程、块和网格:在CUDA编程中,GPU上的并行计算是以线程为基本单位进行的。线程被组织成块(block),而块又可以组织成网格(grid)。开发者可以通过调整块和网格的大小来优化并行计算的性能。 5. 内存管理:CUDA提供了多种类型的内存,开发者可以根据需要选择合适的内存类型。其中,全局内存(Global Memory)是GPU上所有线程都可以访问的共享内存,而共享内存(Shared Memory)是块内线程共享的高速缓存。合理地使用不同类型的内存可以提高并行计算的效率。 通过CUDA编程,开发者可以将适合并行计算的任务分配给GPU来加速处理。这种方式在科学计算、深度学习、图像处理等领域得到广泛应用,能够显著提高计算性能和效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值