![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
hip 性能优化
文章平均质量分 76
hip 是AMD GPU 对标 CUDA的编程语言。hip和cuda有相似之处,也有不同。该专栏着重于hip代码的优化。
fileaccent
这个作者很懒,什么都没留下…
展开
-
实践:将cuda代码转化成hip代码,并编写为pytorch的extension
no-offload-arch=gfx1030 表示不对gfx1030进行编译,rocwmma不支持gfx1030,编译gfx1030会报错。将head_dim 修改为 64。这是因为之前将warp_size设置成64后,一个block的总线程数会超过1024。难点:fused-attention 使用了wmma,如何让这种调库的代码编写为pytorch的extension。并且让转化后的hip代码也能编写为pytorch的extension。可能会出现out of memory 的错误,不要紧张。原创 2023-09-11 23:17:40 · 689 阅读 · 0 评论 -
【hip程序的几个坑】
总结了一些编写代码中,hip的坑原创 2023-09-11 21:29:22 · 141 阅读 · 0 评论 -
rocprof
rocprof的简单使用原创 2023-02-15 20:55:19 · 226 阅读 · 0 评论 -
hip gemm 性能优化
使用 hip 和部分内联汇编语言优化gemm原创 2023-02-11 17:10:16 · 334 阅读 · 0 评论