2600_95884800-CSDN博客

原创 CUDA 项目批量迁 ROCm，CMake 模板与宏开关最佳实践

本文给出CUDA项目批量迁ROCm的CMake模板：80行脚本通过-DUSE_HIP=ON开关一键切换编译器，自动识别ROCm路径、ISA与ABI；配套30行bash批量把.cu转.hip并替换API；ctest位对位验证+GitHub Actions矩阵确保ROCm 5.7/6.0多卡一致，实现跨平台无痛迁移。

2026-05-21 08:53:18 108

原创提交你的第一个 ROCm PR，从 fork 到 CI 绿灯完整记录

本文手把手记录从fork ROCm/rocSPARSE仓库、创建docfix分支、修正文档typo，到本地pre-commit、提交PR并通过gfx908/gfx90a双架构CI绿灯的完整流程，帮助新手快速完成首个ROCm PR。

2026-05-21 08:53:01 291

原创用 rocminfo 与 omniperf 给 ROCm 性能体检，一文看懂输出每个字段

本文手把手教你用rocminfo与omniperf对ROCm平台做性能体检：先用rocminfo秒级确认AMD Instinct GPU的CU、SIMD、VRAM等关键指标，再用零插桩的omniperf一键采集200+运行时计数器，通过红橙绿三色法快速定位内存、计算或同步瓶颈，并给出Stable Diffusion、LLaMA、多卡AllReduce三大实战调优模板，助你1小时内把瓶颈条变绿。

2026-05-21 08:52:33 179

原创把 Stable Diffusion 迁到 ROCm，显存省 3G 的 xFormers 替换方案

在ROCm平台为Stable Diffusion部署xFormers memory_efficient_attention，仅两行环境变量即可复刻CUDA省3G显存效果，实测1024×1024文生图峰值从16.4G降至13.1G，MI50 16G显存不再OOM，吞吐仅降5%，成本比同档CUDA机型低35%，可直接打包为SaaS镜像上线。

2026-05-21 08:51:43 284

原创 AMD 开发者云秒开 JupyterHub，ROCm 版 PyTorch 训练 ResNet50 全流程

借助AMD开发者云，5分钟即可批量开出30份ROCm版PyTorch JupyterHub环境，秒级完成ResNet50分布式训练，教学零等待、GPU高效利用。

2026-05-21 08:51:19 234

原创从 CUDA 到 HIP，自写矩阵乘算子并在 ROCm 上打擂

本文手把手将80行CUDA SG GEMM迁移至ROCm，逐行改写HIP语法并调通rocprof，利用64 KB共享内存与64线程wavefront优化，MI210实测飙至11.2 TFLOPS，对比rocBLAS仅差15%，为CUDA迁移ROCm提供完整性能调优范式。

2026-05-21 08:50:24 301

原创 SGLang 在 ROCm 上的深度调优，把 batch 推理延迟砍半的 3 个参数

本文在ROCm平台对SGLang进行深度调优，仅调max_num_batched_tokens、continuous_batching与hipFFT缓存三参数，即将Llama-2-7B batch推理延迟从210 ms压至95 ms，GPU利用率翻倍，内存碎片降至9%，为ROCm推理优化提供零算子、高ROI实践。

2026-05-21 08:49:53 239

原创 CUDA 代码迁到 ROCm，5 步完成 PyTorch 扩展编译并提速 18%

本文以5步实战演示CUDA代码迁移至ROCm的全流程：宏隔离、hipcc编译、pytest验证、hipGraph提速18%，并附语法对照表与踩坑清单，助开发者零成本完成PyTorch扩展双平台部署。

2026-05-20 18:07:09 306

原创 ROCm 入门第一课，30 分钟跑通 Hello World 并输出火焰图

30分钟完成ROCm ROCm入门：申请AMD开发者云MI210，Docker拉起ROCm 5.7镜像，25行HIP代码跑通向量加法Hello World，用rocprof生成火焰图秒级定位瓶颈，CUDA用户零成本迁移。

2026-05-20 17:57:19 291

原创把实验室搬回家，打造高性价比 Radeon AI 创意工坊心得

本文分享如何利用二手 Radeon RX 6800 XT 打造高性价比 AI 创意工坊。通过 Docker 部署 ROCm 环境，成功运行 Qwen 3.6 大模型与视频生成任务。文章详解硬件选型、散热优化及本地 Agent 实战，助开发者以低成本实现隐私安全的本地化 AI 创作。

2026-05-19 16:56:49 13

原创拒绝云评测，我在 Radeon 上调优 Qwen 3.6 的真实数据分享

本文分享在 Radeon RX 7900 XTX 上调优 Qwen 3.6 的实战数据。通过 ROCm 环境搭建与 INT8 量化技术，成功解决显存瓶颈，实现高效微调与推理。文章打破 CUDA 依赖，验证了 AMD 显卡运行大语言模型的可行性与高性价比。

2026-05-19 16:55:56 9

原创大显存真香现场，用 Radeon 一机兼顾游戏与 AI 视觉创作

本文分享利用 Radeon 大显存显卡兼顾游戏与 AI 视觉创作的实战经验。通过 ROCm 环境搭建与 Docker 部署，实现本地视频超分及大模型推理。低成本高显存方案打破品牌偏见，为极客提供高效的双栖创作与工作流。

2026-05-19 16:52:30 12

原创新手也能搞定，Radeon 显卡配置 ROCm 环境的保姆级教程

本文提供 Radeon 显卡配置 ROCm 环境的保姆级教程，助新手将游戏卡变身 AI 引擎。涵盖 Ubuntu 系统清理、核心组件安装及 PyTorch 环境搭建，避开常见兼容坑，轻松实现本地大模型推理与部署。

2026-05-19 16:46:30 104

原创别只拿来打游戏，Radeon 显卡跑 Qwen 3.6 的本地部署实录

本文实录 Radeon 显卡本地部署 Qwen 3.6 的全过程。通过优化 ROCm 环境与 Linux 配置，成功在 RX 7900 XT 上实现流畅推理。文章打破 A 卡仅限游戏的刻板印象，为开发者提供高性价比的本地 AI 解决方案。

2026-05-19 16:26:50 113

原创模型量化全攻略，利用 INT4 技术在笔记本上跑得更快

本文详解模型量化全攻略，聚焦 INT4 技术在 AMD Ryzen AI Strix Halo 笔记本上的实战应用。通过对比 QAT 与 PTQ 范式及工具链选型，展示 INT4 如何将大模型推理速度提升 4 倍并降低内存占用，助开发者在端侧高效部署 AI。

2026-05-19 16:04:43 123

原创新手必看，Ryzen AI 上运行 Llama 模型的保姆级步骤

本文详解在 Ryzen AI 平台部署 Llama 模型的保姆级步骤。涵盖驱动更新、环境配置及 INT4 量化模型选择，指导新手利用 NPU 加速实现高效本地推理。通过实战代码与排错指南，助您快速构建隐私安全的端侧 AI 助手，释放硬件潜力。

2026-05-19 16:04:00 261

原创 96GB 显存有什么用，Strix Halo 本地开发体验深度解析

本文深度解析 AMD Strix Halo 架构下 96GB 显存对本地 AI 开发的变革意义。通过支持大语言模型全参数加载、多模型并发及高带宽推理，彻底打破硬件瓶颈。文章探讨如何利用该配置构建隐私安全的 RAG 系统与高效 AI Agent，实现服务器级本地开发体验。

2026-05-19 15:55:45 275

原创告别云端依赖，一台笔记本搞定 AI Agent 开发全流程

本文详解如何利用 AMD Ryzen AI 笔记本实现 AI Agent 本地开发全流程。借助 Strix Halo 大内存与 NPU 加速，开发者可高效部署量化大模型，构建隐私安全、零延迟的智能体应用，彻底告别云端依赖，降低开发成本。

2026-05-19 15:53:57 273 1

原创 INT4 量化怎么做，让 NPU 加速你的本地 AI 应用

本文详解 INT4 量化技术如何突破显存瓶颈，助力 NPU 加速本地 AI 应用。通过对比 INT8 与 INT4 原理，演示利用 llama.cpp 将 Qwen 模型转为 GGUF 格式，实现在 AMD Ryzen AI 平台上的高效推理，显著降低功耗并提升速度，是端侧大语言模型部署的关键方案。

2026-05-19 15:50:26 371