cuda优化

在这里插入图片描述
希望用GPU解决更大的问题,更多的程序在同等的设备商运行
在这里插入图片描述
在这里插入图片描述
最大化单个kernel的运算强度,
最小化内存的操作时间
在这里插入图片描述
在这里插入图片描述

在第一步分析的时候,不要依赖直觉

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
类似CPU,单个线程处理这个事情,串行
在这里插入图片描述
把读取全局内存的地方合并以后再去处理输出

输入里面每一个值element,把这个值放到共享内存里面,一小块一小块放到共享内存里面去做转置,做完以后,共享内存中的结果再复制到输出矩阵
使用全局变量-----合并到一个共享内存里面------放到这个内存的同时把转置的工作做了
在这里插入图片描述
把共享内存的大小缩小以后,K=16,处理的速度也得到了提升
在这里插入图片描述在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

NVVP:可以看性能

在这里插入图片描述
在这里插入图片描述
边缘和中间部分处理不一样,可以看看写成两个kernel函数处理—把它变成两次的并行化处理,或者同样指令,
B站课程链接

https://www.bilibili.com/video/BV1zK411A7Wq/?spm_id_from=333.337.top_right_bar_window_history.content.click

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值