cuda--编程基础

GPU架构概览

  • GPU适合用于:密集计算,高度可行并行计算,图形学等,即执行计算;
  • GPPU不适合于:缓存数据,控制指令流;

 

 

说明:

  1. 计算矩阵Pd和M的行索引;
  2. 计算矩阵Pd和N的列索引;
  3. 每一个线程计算块内的一个元素

说明:

  1. Shared memory 存储Md和Nd的子集
  2. Width/TILE_WIDTH 阶段数目
  3. m当前阶段的索引
  4. 从Md和Nd各取一个元素存入shared memory
  5. 等待block内所有线程,即,等到整个瓦片存入shared memory
  6. 累加点乘的子集
  7. 把最终的结果写入global memory

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值