RookieCao-CSDN博客

原创学习优化cuda中GEMM Kernel性能并接近CuBLAS(一)

本文总结了GPU中矩阵乘法(GEMM)优化的几种关键方法，通过减少访存次数和提高计算访存比来提升性能，并于基于cublas库的Baseline进行对比分析。

2025-06-02 00:08:38 1032 2

原创 LeetCUDA-学习记录-点积(dot product)

文章详细探讨了点积计算的优化策略，包括使用float4向量化和shuffle寄存器指令来减少内存访问延迟。通过代码示例，作者展示了如何利用CUDA的warp_reduce_sum_f32函数和atomicAdd操作实现高效的点积计算。文章还提供了相关参考资料，帮助读者深入理解CUDA编程中的原子操作和shuffle函数的使用。

2025-05-21 18:12:33 861

原创 LeetCUDA-学习记录-矩阵转置(mat-transpose)

本文记录了作者学习LeetCUDA项目的过程，重点分析了矩阵转置（mat-transpose）算子的优化设计。作者首先介绍了行主序和列主序的概念，并详细分析了项目中两种矩阵转置的实现方式：一种是基于行主序的优化，另一种是基于列主序的优化。通过使用float4向量化和共享内存，项目成功减少了计算延迟和访存耗时，但仍存在部分bank conflict问题。作者进一步优化了核函数，通过调整共享内存的访问模式，完全消除了bank conflict，并在GTX 1660 SUPER上测试，性能提升了1.2倍。

2025-05-20 22:14:35 936