![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
cuda开发
文章平均质量分 73
外卖猿
这个作者很懒,什么都没留下…
展开
-
cuda 纹理内存 texture memory
纹理内存的使用原创 2024-04-09 21:52:44 · 709 阅读 · 0 评论 -
cuda加速:memory coalescing,Bank Conflicts
实际的共享内存由32个bank组成,warp由32个线程组成。这里仅用4个bank(A、B、C、D)以及4个thread来进行说明。参考【1】中给出的定义:一个warp中,thread 0到thread 31访问连续的内存空间,则这些线程的访问被合并为一次访问。下图两种情况均能保证一个thread访问不同的bank,不会造成bank conflict。不同的线程访问同一个bank,会导致串行访问,这称之为bank conflict。原创 2024-02-22 18:20:54 · 428 阅读 · 0 评论 -
使用numba cuda 加速Python运算
python版cuda的使用原创 2023-11-20 20:41:02 · 553 阅读 · 0 评论 -
[cuda 技术总结2] cuda错误返回值
错误返回值对快速确认出错代码,很有帮助。这里总结下笔者使用过的方法。原创 2023-07-25 10:39:11 · 648 阅读 · 0 评论 -
[cuda 技术总结1] 第一次调用 cuda 库函数 耗时很长
在cuda编程中,发现调用cuda文件总耗时一百多ms,而纯kernel计算时间才3ms。时间都去哪了?查资料,trouble shooting,最后才发现这多出来的时间,就是第一次调用cuda api的时间:隐式cuda初始化,加载上下文…2.Linux下将驱动加载的默认模式改成“持久保存”原创 2023-07-14 14:16:00 · 1063 阅读 · 0 评论 -
【参加CUDA线上训练营】共享内存实例1:矩阵转置实现及其优化①
cuda开发 矩阵transpose原创 2023-02-16 11:48:08 · 659 阅读 · 0 评论 -
【cuda入门系列】通过代码真实打印线程ID
从代码运行结果看thread和向量vector的对应关系。原创 2023-02-14 19:31:36 · 662 阅读 · 0 评论 -
【参加CUDA线上训练营】共享内存实例2:矩阵相乘
本blog内容主要整理自CUDA线上训练营讲课材料及上机代码。原创 2023-02-14 00:16:37 · 671 阅读 · 0 评论 -
【参加CUDA线上训练营】共享内存实例1:矩阵转置实现及其优化②
本文参考Nvidia官方blog及其对应的github代码学习下共享内存的使用,感受下其加速效果。原创 2023-02-12 17:42:43 · 719 阅读 · 0 评论 -
【参加CUDA线上训练营】一文认识cuda基本概念
【参加CUDA线上训练营】零基础cuda原创 2023-02-09 18:27:41 · 631 阅读 · 0 评论 -
【参加CUDA线上训练营】在Jetson nano本地跑 hello cuda!
【参加CUDA线上训练营】hello cuda!原创 2023-02-09 18:31:41 · 339 阅读 · 5 评论