- 博客(4)
- 收藏
- 关注
原创 ROCm GPU 编程:rocprof 性能分析工具的调试实战
文章详细介绍了从环境配置、错误排查到性能分析的全流程,包括解决HIP_CHECK宏定义位置、hipGetDefaultStream函数替换、rocprof路径配置等问题。通过rocprof分析,发现该核函数处理1M浮点数仅需0.027ms,性能已接近理论上限。最后提出更高层次的优化建议,如采用FP16精度、算子融合等策略。该实战经验为GPU编程和性能优化提供了实用参考。
2025-07-25 20:42:03
1362
原创 HPC 调试经验:ONNX Runtime 崩溃
ROCm是 AMD 的 GPU 计算平台,ONNX Runtime 在 ROCm 环境下需要加载相应的提供者库。如果系统自带的 ONNX 库版本不一致,可能出现。解决方法是通过和等环境变量,强制使用 Python 包内的 ROCm 提供者库。
2025-05-03 11:56:49
1280
原创 HPC 调试经验:线程亲和性设置失败
线程亲和性(CPU 亲和性)是将线程绑定到特定 CPU 核的机制,有助于提高缓存命中率。如果 ONNX Runtime 报错线程亲和性失败(error code 22),通常只需显式指定线程数(如设置或),这样就不会自动设置亲和性。在 HPC 开发中,遇到报错要先看日志、定位根因:对照错误信息中的关键字(如affinity),结合系统环境(多核配置、GPU 驱动等)分析原因,并尝试调整环境变量或程序配置来解决。以上经验可供其他初学者参考和借鉴。
2025-05-03 11:32:30
1396
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅