大规模并行处理器编程实战笔记1

本文介绍了大规模并行处理器编程中的数据并行性和CUDA编程模型。以矩阵乘法为例,展示了如何利用CUDA进行并行计算,包括CUDA程序结构、矩阵乘法的设备代码实现、设备内存类型及数据传输、kernel函数与线程的概念。文章总结了CUDA对C语言的扩展,如__global__、__device__和__host__关键字,并提到了运行时API如cudaMalloc和cudaMemcpy的使用。
摘要由CSDN通过智能技术生成
1:数据并行性
数据并行性是一种支持算术操作按照一定的数据结构同时安全地执行的程序属性。
矩阵乘法中的数据并行性:每个点击之间没有数据的相互依赖,可以高度并行化。

2:CUDA的程序结构
代码:
程序由C代码和扩展代码(一般问kernel函数)共同组成,设备代码一般由nvcc来进行编译,并在GPU设备上执行,如果没有GPU(或者kernel函数更使用使用CPU),可以通过SDK或者MCUDA进行仿真,在CPU上执行kernel函数
过程:
开始于主机(CPU),当kernel函数需要被调用或者启动时,转移到设备(GPU)上。
设备将生成大量的线程,充分利用大量数据的并行性。

3:矩阵乘法示例
使用一维的存储来表示二维结构的数据
只有主机代码的示例:
void MatrixMultiplication(flaot * M, float * N, float * P, int Width)
{
for(int i = 0; i < Width; i++)
for(int j = 0; j < Width; j++)
{
float sum = 0;
for(int k = 0; k < Width; k++)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值