![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
并行计算
文章平均质量分 95
YoYo鹿鸣_HPC
这个作者很懒,什么都没留下…
展开
-
Roofline模型(二):有哪些性能低于roofline的原因?
性能低于roofline的原因原创 2023-01-16 14:57:09 · 1124 阅读 · 0 评论 -
Roofline模型(一):概念、基本公式、图像分析
并行计算Roofline性能分析原创 2023-01-13 13:19:08 · 5595 阅读 · 2 评论 -
GPU/DCU减少cudaMemcpy/hipMemcpy时间方案
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档GPU/DCU减少cudaMemcpy/hipMemcpy时间方案前言一、传输延迟测试二、减少传输时间方案1.数据重用2.Pinned Memory3.高维矩阵传输4.传输、计算时间重叠5.批量传输、选择大粒度并行总结前言CUDA是GPU加速器上的编程语言,HIP是DCU加速器上的编程语言,二者生态相似,CUDA可通过hipify工具转换为HIPHIP docs: https://rocmdocs.amd.com/en/late原创 2021-04-02 13:18:46 · 6742 阅读 · 0 评论