- 博客(21)
- 收藏
- 关注
原创 CUDA 项目批量迁 ROCm,CMake 模板与宏开关最佳实践
本文给出CUDA项目批量迁ROCm的CMake模板:80行脚本通过-DUSE_HIP=ON开关一键切换编译器,自动识别ROCm路径、ISA与ABI;配套30行bash批量把.cu转.hip并替换API;ctest位对位验证+GitHub Actions矩阵确保ROCm 5.7/6.0多卡一致,实现跨平台无痛迁移。
2026-05-21 08:53:18
108
原创 提交你的第一个 ROCm PR,从 fork 到 CI 绿灯完整记录
本文手把手记录从fork ROCm/rocSPARSE仓库、创建docfix分支、修正文档typo,到本地pre-commit、提交PR并通过gfx908/gfx90a双架构CI绿灯的完整流程,帮助新手快速完成首个ROCm PR。
2026-05-21 08:53:01
291
原创 用 rocminfo 与 omniperf 给 ROCm 性能体检,一文看懂输出每个字段
本文手把手教你用rocminfo与omniperf对ROCm平台做性能体检:先用rocminfo秒级确认AMD Instinct GPU的CU、SIMD、VRAM等关键指标,再用零插桩的omniperf一键采集200+运行时计数器,通过红橙绿三色法快速定位内存、计算或同步瓶颈,并给出Stable Diffusion、LLaMA、多卡AllReduce三大实战调优模板,助你1小时内把瓶颈条变绿。
2026-05-21 08:52:33
179
原创 把 Stable Diffusion 迁到 ROCm,显存省 3G 的 xFormers 替换方案
在ROCm平台为Stable Diffusion部署xFormers memory_efficient_attention,仅两行环境变量即可复刻CUDA省3G显存效果,实测1024×1024文生图峰值从16.4G降至13.1G,MI50 16G显存不再OOM,吞吐仅降5%,成本比同档CUDA机型低35%,可直接打包为SaaS镜像上线。
2026-05-21 08:51:43
284
原创 AMD 开发者云秒开 JupyterHub,ROCm 版 PyTorch 训练 ResNet50 全流程
借助AMD开发者云,5分钟即可批量开出30份ROCm版PyTorch JupyterHub环境,秒级完成ResNet50分布式训练,教学零等待、GPU高效利用。
2026-05-21 08:51:19
234
原创 从 CUDA 到 HIP,自写矩阵乘算子并在 ROCm 上打擂
本文手把手将80行CUDA SG GEMM迁移至ROCm,逐行改写HIP语法并调通rocprof,利用64 KB共享内存与64线程wavefront优化,MI210实测飙至11.2 TFLOPS,对比rocBLAS仅差15%,为CUDA迁移ROCm提供完整性能调优范式。
2026-05-21 08:50:24
301
原创 SGLang 在 ROCm 上的深度调优,把 batch 推理延迟砍半的 3 个参数
本文在ROCm平台对SGLang进行深度调优,仅调max_num_batched_tokens、continuous_batching与hipFFT缓存三参数,即将Llama-2-7B batch推理延迟从210 ms压至95 ms,GPU利用率翻倍,内存碎片降至9%,为ROCm推理优化提供零算子、高ROI实践。
2026-05-21 08:49:53
239
原创 CUDA 代码迁到 ROCm,5 步完成 PyTorch 扩展编译并提速 18%
本文以5步实战演示CUDA代码迁移至ROCm的全流程:宏隔离、hipcc编译、pytest验证、hipGraph提速18%,并附语法对照表与踩坑清单,助开发者零成本完成PyTorch扩展双平台部署。
2026-05-20 18:07:09
306
原创 ROCm 入门第一课,30 分钟跑通 Hello World 并输出火焰图
30分钟完成ROCm ROCm入门:申请AMD开发者云MI210,Docker拉起ROCm 5.7镜像,25行HIP代码跑通向量加法Hello World,用rocprof生成火焰图秒级定位瓶颈,CUDA用户零成本迁移。
2026-05-20 17:57:19
291
原创 把实验室搬回家,打造高性价比 Radeon AI 创意工坊心得
本文分享如何利用二手 Radeon RX 6800 XT 打造高性价比 AI 创意工坊。通过 Docker 部署 ROCm 环境,成功运行 Qwen 3.6 大模型与视频生成任务。文章详解硬件选型、散热优化及本地 Agent 实战,助开发者以低成本实现隐私安全的本地化 AI 创作。
2026-05-19 16:56:49
13
原创 拒绝云评测,我在 Radeon 上调优 Qwen 3.6 的真实数据分享
本文分享在 Radeon RX 7900 XTX 上调优 Qwen 3.6 的实战数据。通过 ROCm 环境搭建与 INT8 量化技术,成功解决显存瓶颈,实现高效微调与推理。文章打破 CUDA 依赖,验证了 AMD 显卡运行大语言模型的可行性与高性价比。
2026-05-19 16:55:56
9
原创 大显存真香现场,用 Radeon 一机兼顾游戏与 AI 视觉创作
本文分享利用 Radeon 大显存显卡兼顾游戏与 AI 视觉创作的实战经验。通过 ROCm 环境搭建与 Docker 部署,实现本地视频超分及大模型推理。低成本高显存方案打破品牌偏见,为极客提供高效的双栖创作与工作流。
2026-05-19 16:52:30
12
原创 新手也能搞定,Radeon 显卡配置 ROCm 环境的保姆级教程
本文提供 Radeon 显卡配置 ROCm 环境的保姆级教程,助新手将游戏卡变身 AI 引擎。涵盖 Ubuntu 系统清理、核心组件安装及 PyTorch 环境搭建,避开常见兼容坑,轻松实现本地大模型推理与部署。
2026-05-19 16:46:30
104
原创 别只拿来打游戏,Radeon 显卡跑 Qwen 3.6 的本地部署实录
本文实录 Radeon 显卡本地部署 Qwen 3.6 的全过程。通过优化 ROCm 环境与 Linux 配置,成功在 RX 7900 XT 上实现流畅推理。文章打破 A 卡仅限游戏的刻板印象,为开发者提供高性价比的本地 AI 解决方案。
2026-05-19 16:26:50
113
原创 模型量化全攻略,利用 INT4 技术在笔记本上跑得更快
本文详解模型量化全攻略,聚焦 INT4 技术在 AMD Ryzen AI Strix Halo 笔记本上的实战应用。通过对比 QAT 与 PTQ 范式及工具链选型,展示 INT4 如何将大模型推理速度提升 4 倍并降低内存占用,助开发者在端侧高效部署 AI。
2026-05-19 16:04:43
123
原创 新手必看,Ryzen AI 上运行 Llama 模型的保姆级步骤
本文详解在 Ryzen AI 平台部署 Llama 模型的保姆级步骤。涵盖驱动更新、环境配置及 INT4 量化模型选择,指导新手利用 NPU 加速实现高效本地推理。通过实战代码与排错指南,助您快速构建隐私安全的端侧 AI 助手,释放硬件潜力。
2026-05-19 16:04:00
261
原创 96GB 显存有什么用,Strix Halo 本地开发体验深度解析
本文深度解析 AMD Strix Halo 架构下 96GB 显存对本地 AI 开发的变革意义。通过支持大语言模型全参数加载、多模型并发及高带宽推理,彻底打破硬件瓶颈。文章探讨如何利用该配置构建隐私安全的 RAG 系统与高效 AI Agent,实现服务器级本地开发体验。
2026-05-19 15:55:45
275
原创 告别云端依赖,一台笔记本搞定 AI Agent 开发全流程
本文详解如何利用 AMD Ryzen AI 笔记本实现 AI Agent 本地开发全流程。借助 Strix Halo 大内存与 NPU 加速,开发者可高效部署量化大模型,构建隐私安全、零延迟的智能体应用,彻底告别云端依赖,降低开发成本。
2026-05-19 15:53:57
273
1
原创 INT4 量化怎么做,让 NPU 加速你的本地 AI 应用
本文详解 INT4 量化技术如何突破显存瓶颈,助力 NPU 加速本地 AI 应用。通过对比 INT8 与 INT4 原理,演示利用 llama.cpp 将 Qwen 模型转为 GGUF 格式,实现在 AMD Ryzen AI 平台上的高效推理,显著降低功耗并提升速度,是端侧大语言模型部署的关键方案。
2026-05-19 15:50:26
371
原创 从零搭建本地知识库,Ryzen AI 平台 RAG 实战教程
本文详解基于 Ryzen AI 平台从零搭建本地知识库的 RAG 实战教程。利用 Strix Halo 架构与 NPU 加速,实现大模型端侧部署,确保数据隐私安全。涵盖向量数据库选型、文档预处理及 Ollama 接入,助开发者构建高效、低成本的私有智能系统。
2026-05-19 15:49:49
295
原创 笔记本跑大模型,AMD Ryzen AI Strix Halo 实测指南
本文实测 AMD Ryzen AI Strix Halo 在笔记本运行大模型的突破表现。凭借 96GB 统一显存,本地可流畅部署 70B 参数模型,解决显存瓶颈。结合 NPU 加速与低功耗优势,打造隐私安全的本地 AI Agent,推动端侧 AI 创新落地。
2026-05-19 15:45:57
466
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅