- 博客(8)
- 收藏
- 关注
原创 学习优化cuda中GEMM Kernel性能并接近CuBLAS(一)
本文总结了GPU中矩阵乘法(GEMM)优化的几种关键方法,通过减少访存次数和提高计算访存比来提升性能,并于基于cublas库的Baseline进行对比分析。
2025-06-02 00:08:38
1032
2
原创 LeetCUDA-学习记录-点积(dot product)
文章详细探讨了点积计算的优化策略,包括使用float4向量化和shuffle寄存器指令来减少内存访问延迟。通过代码示例,作者展示了如何利用CUDA的warp_reduce_sum_f32函数和atomicAdd操作实现高效的点积计算。文章还提供了相关参考资料,帮助读者深入理解CUDA编程中的原子操作和shuffle函数的使用。
2025-05-21 18:12:33
861
原创 LeetCUDA-学习记录-矩阵转置(mat-transpose)
本文记录了作者学习LeetCUDA项目的过程,重点分析了矩阵转置(mat-transpose)算子的优化设计。作者首先介绍了行主序和列主序的概念,并详细分析了项目中两种矩阵转置的实现方式:一种是基于行主序的优化,另一种是基于列主序的优化。通过使用float4向量化和共享内存,项目成功减少了计算延迟和访存耗时,但仍存在部分bank conflict问题。作者进一步优化了核函数,通过调整共享内存的访问模式,完全消除了bank conflict,并在GTX 1660 SUPER上测试,性能提升了1.2倍。
2025-05-20 22:14:35
936
原创 Docker容器环境下ncu对于核函数性能分析Unknown Error on device 0 when runing ncu报错问题
windows docker 容器环境下进行分析性能,你可以更换使用WSL2去运行ubuntu镜像分析性能,也可以使用ubuntu中使用ubuntu docker版本来执行ncu的工作。这是官方自己的原因,因为官方并不支持。
2025-04-09 19:09:58
238
原创 WSL2-Ubuntu22.04下载g++时出现 libc6-dev 软件包linux内核冲突的问题
在WSL2-ubuntu22.04环境下执行sudo apt-get install g++ 出现依赖包冲突问题
2025-04-09 18:52:28
431
原创 C/C++学习-Docker linux环境
本文采用**ubuntu:20.04**镜像,对刚入行的开发者详细介绍如何在Docker容器中安装GCC编译器。
2024-11-25 21:44:49
742
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人