国产加速器海光DCU&GPGPU深算处理器程序开发常见问题

最新推荐文章于 2025-05-05 17:14:34 发布

技术瘾君子1573

最新推荐文章于 2025-05-05 17:14:34 发布

阅读量2.9k

点赞数 39

分类专栏： Linux并行计算&HPC高性能计算文章标签： DCU GPGPU 海光 ROCm CUDA 开发常见问题

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27815483/article/details/141311424

版权

目录

一、硬件架构参数问题

二、DCU编程环境问题

三、转码移植基本问题

四、性能调优、MPI通信相关问题

五、编译及开发相关问题

2 ）Fortran类

3 ）核函数类

以计算服务平台昆山中心为例，罗列一些常见的DCU开发常见问题，请各位参考。

一、硬件架构参数问题

1、计算平台CPU、DCU对标NV哪个型号？

A：计算平台CPU#1，对标AMD Naples。DCU对标NV
Tesla V100、AMD Vega MI60。

2、DCU与AMD GPU的什么架构相似？

A：可参考AMD gfx906。

3、DCU（风冷及液冷）与NVIDIA V100在硬件架构与配置上有何差异？

A：DCU没有tensorcore，纹理单元和内存也没有，share memory机制类似，等基本是一样的，容量有些差别。

4、DCU支持tensorcore吗？

A：不支持。

5、计算平台上的cpu存在numa现象吗？与Intel至强CPU在硬件架构与配置上有何差异？

A：有的。每个cpu有4个numa节点，相当于4路cpu，每个cpu带一个加速卡，调优时注意绑定numa。Intel至强cpu 每个cpu有一个numa节点。

6、DCU系统软硬件架构

A：登录 - 光合开发者社区

7、DCU Z100产品参数

A：请联系秘书处获取产品手册，光合基金秘书处邮箱 ghfund@hieco.com.cn

二、DCU编程环境问题

1、DCU是否支持切换精度的宏？

A：支持。

2、是否支持boost库cpu端使用？

A：支持。

3、DCU是否支持thrust库？

A：支持，DCU中是rocThrust。

4、对于二级矩阵中的doublepoint**，CUDA里面是分配页锁定内存，DCU是否也支持这种用法？

A：支持锁页内存（pinned memory）。

5、DCU是否支持CUDACXX库？

A：目前还不支持，libcudacxx还没有做，load store接口是有的，但没有开放出来，可以联系开发工程师进行封装，用户订制开发。建议尽量绕过去CUDACXX。

6、ROCm对CUDA的支持列表有哪些？

A：CUDA4.0的大部分功能支持，如stream、内存管理、同步管理、kernel都差不多支，不支持的有：global调global（dinamic
parallel）、协作组。

7、目前昆山集群有哪些编译好的数学库可用呢？

A：rocBLAS、rocFFT、MIOpen等

8、能否使用gcc 10/11中的OpenMP/OpenACC做DCU的异构开发？

A：DTK-22.10已经添加了OpenMP和OpenACC C和C++语言支持，使用手册请见 https://cancon.hpccube.com:65024/1/main/DTK-22.10/Document
。

9、Unified Memory支持如何？

A：有api，更多是功能的封装，性能不好。

10、是否支持HPCG？

A：支持，性能还可以。

11、是否支持kokos？

A：后续发布的版本会支持，目前虽然编译通了，但性能不是太高。

12、是否支持PETSc？

A：目前PETSc对异构支持有HIP和Kokkos两种方式，支持的类型有限，支持vector相关的部分计算，matrix相关计算还在开发中，整体还不太可用，建议应用针对性的做异构移植和优化。

13、有无Clang环境？

A：直接用ROCm环境即可，ROCm环境就是基于LLVM+Clang环境构建的。

14、设备端数据结构是否可以用vector？

A：建议使用thrust cube等，不要用stl。

15、DCU芯片有没有CUDA的GPU direct和P2P类似的功能？

A：不支持，下一代有规划。

三、转码移植基本问题

1、平台上如何进行cuda到hip的转码？

A：加载rocm环境可以直接使用hipify-perl命令，或者使用 hipconvertinplace-perl.sh 脚本对整个目录进行转码。

2、移植流程是怎样的？

A：1）profiling分析程序，找出耗时较多的部分——用时约60%-70%;2）移植，尽量减少cpu和dcu之间的数据搬迁，主要部分移植到dcu，较难移植的部分由cpu辅助去做。

3、核函数转换后字符串支持不太好，怎么办？

A：转换工具是辅助工具，转换后性能有差异，参考hip的一些开源项目。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

技术瘾君子1573 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。