自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 CUDA 项目批量迁 ROCm,CMake 模板与宏开关最佳实践

本文给出CUDA项目批量迁ROCm的CMake模板:80行脚本通过-DUSE_HIP=ON开关一键切换编译器,自动识别ROCm路径、ISA与ABI;配套30行bash批量把.cu转.hip并替换API;ctest位对位验证+GitHub Actions矩阵确保ROCm 5.7/6.0多卡一致,实现跨平台无痛迁移。

2026-05-21 08:53:18 108

原创 提交你的第一个 ROCm PR,从 fork 到 CI 绿灯完整记录

本文手把手记录从fork ROCm/rocSPARSE仓库、创建docfix分支、修正文档typo,到本地pre-commit、提交PR并通过gfx908/gfx90a双架构CI绿灯的完整流程,帮助新手快速完成首个ROCm PR。

2026-05-21 08:53:01 291

原创 用 rocminfo 与 omniperf 给 ROCm 性能体检,一文看懂输出每个字段

本文手把手教你用rocminfo与omniperf对ROCm平台做性能体检:先用rocminfo秒级确认AMD Instinct GPU的CU、SIMD、VRAM等关键指标,再用零插桩的omniperf一键采集200+运行时计数器,通过红橙绿三色法快速定位内存、计算或同步瓶颈,并给出Stable Diffusion、LLaMA、多卡AllReduce三大实战调优模板,助你1小时内把瓶颈条变绿。

2026-05-21 08:52:33 179

原创 把 Stable Diffusion 迁到 ROCm,显存省 3G 的 xFormers 替换方案

在ROCm平台为Stable Diffusion部署xFormers memory_efficient_attention,仅两行环境变量即可复刻CUDA省3G显存效果,实测1024×1024文生图峰值从16.4G降至13.1G,MI50 16G显存不再OOM,吞吐仅降5%,成本比同档CUDA机型低35%,可直接打包为SaaS镜像上线。

2026-05-21 08:51:43 284

原创 AMD 开发者云秒开 JupyterHub,ROCm 版 PyTorch 训练 ResNet50 全流程

借助AMD开发者云,5分钟即可批量开出30份ROCm版PyTorch JupyterHub环境,秒级完成ResNet50分布式训练,教学零等待、GPU高效利用。

2026-05-21 08:51:19 234

原创 从 CUDA 到 HIP,自写矩阵乘算子并在 ROCm 上打擂

本文手把手将80行CUDA SG GEMM迁移至ROCm,逐行改写HIP语法并调通rocprof,利用64 KB共享内存与64线程wavefront优化,MI210实测飙至11.2 TFLOPS,对比rocBLAS仅差15%,为CUDA迁移ROCm提供完整性能调优范式。

2026-05-21 08:50:24 301

原创 SGLang 在 ROCm 上的深度调优,把 batch 推理延迟砍半的 3 个参数

本文在ROCm平台对SGLang进行深度调优,仅调max_num_batched_tokens、continuous_batching与hipFFT缓存三参数,即将Llama-2-7B batch推理延迟从210 ms压至95 ms,GPU利用率翻倍,内存碎片降至9%,为ROCm推理优化提供零算子、高ROI实践。

2026-05-21 08:49:53 239

原创 CUDA 代码迁到 ROCm,5 步完成 PyTorch 扩展编译并提速 18%

本文以5步实战演示CUDA代码迁移至ROCm的全流程:宏隔离、hipcc编译、pytest验证、hipGraph提速18%,并附语法对照表与踩坑清单,助开发者零成本完成PyTorch扩展双平台部署。

2026-05-20 18:07:09 306

原创 ROCm 入门第一课,30 分钟跑通 Hello World 并输出火焰图

30分钟完成ROCm ROCm入门:申请AMD开发者云MI210,Docker拉起ROCm 5.7镜像,25行HIP代码跑通向量加法Hello World,用rocprof生成火焰图秒级定位瓶颈,CUDA用户零成本迁移。

2026-05-20 17:57:19 291

原创 把实验室搬回家,打造高性价比 Radeon AI 创意工坊心得

本文分享如何利用二手 Radeon RX 6800 XT 打造高性价比 AI 创意工坊。通过 Docker 部署 ROCm 环境,成功运行 Qwen 3.6 大模型与视频生成任务。文章详解硬件选型、散热优化及本地 Agent 实战,助开发者以低成本实现隐私安全的本地化 AI 创作。

2026-05-19 16:56:49 13

原创 拒绝云评测,我在 Radeon 上调优 Qwen 3.6 的真实数据分享

本文分享在 Radeon RX 7900 XTX 上调优 Qwen 3.6 的实战数据。通过 ROCm 环境搭建与 INT8 量化技术,成功解决显存瓶颈,实现高效微调与推理。文章打破 CUDA 依赖,验证了 AMD 显卡运行大语言模型的可行性与高性价比。

2026-05-19 16:55:56 9

原创 大显存真香现场,用 Radeon 一机兼顾游戏与 AI 视觉创作

本文分享利用 Radeon 大显存显卡兼顾游戏与 AI 视觉创作的实战经验。通过 ROCm 环境搭建与 Docker 部署,实现本地视频超分及大模型推理。低成本高显存方案打破品牌偏见,为极客提供高效的双栖创作与工作流。

2026-05-19 16:52:30 12

原创 新手也能搞定,Radeon 显卡配置 ROCm 环境的保姆级教程

本文提供 Radeon 显卡配置 ROCm 环境的保姆级教程,助新手将游戏卡变身 AI 引擎。涵盖 Ubuntu 系统清理、核心组件安装及 PyTorch 环境搭建,避开常见兼容坑,轻松实现本地大模型推理与部署。

2026-05-19 16:46:30 104

原创 别只拿来打游戏,Radeon 显卡跑 Qwen 3.6 的本地部署实录

本文实录 Radeon 显卡本地部署 Qwen 3.6 的全过程。通过优化 ROCm 环境与 Linux 配置,成功在 RX 7900 XT 上实现流畅推理。文章打破 A 卡仅限游戏的刻板印象,为开发者提供高性价比的本地 AI 解决方案。

2026-05-19 16:26:50 113

原创 模型量化全攻略,利用 INT4 技术在笔记本上跑得更快

本文详解模型量化全攻略,聚焦 INT4 技术在 AMD Ryzen AI Strix Halo 笔记本上的实战应用。通过对比 QAT 与 PTQ 范式及工具链选型,展示 INT4 如何将大模型推理速度提升 4 倍并降低内存占用,助开发者在端侧高效部署 AI。

2026-05-19 16:04:43 123

原创 新手必看,Ryzen AI 上运行 Llama 模型的保姆级步骤

本文详解在 Ryzen AI 平台部署 Llama 模型的保姆级步骤。涵盖驱动更新、环境配置及 INT4 量化模型选择,指导新手利用 NPU 加速实现高效本地推理。通过实战代码与排错指南,助您快速构建隐私安全的端侧 AI 助手,释放硬件潜力。

2026-05-19 16:04:00 261

原创 96GB 显存有什么用,Strix Halo 本地开发体验深度解析

本文深度解析 AMD Strix Halo 架构下 96GB 显存对本地 AI 开发的变革意义。通过支持大语言模型全参数加载、多模型并发及高带宽推理,彻底打破硬件瓶颈。文章探讨如何利用该配置构建隐私安全的 RAG 系统与高效 AI Agent,实现服务器级本地开发体验。

2026-05-19 15:55:45 275

原创 告别云端依赖,一台笔记本搞定 AI Agent 开发全流程

本文详解如何利用 AMD Ryzen AI 笔记本实现 AI Agent 本地开发全流程。借助 Strix Halo 大内存与 NPU 加速,开发者可高效部署量化大模型,构建隐私安全、零延迟的智能体应用,彻底告别云端依赖,降低开发成本。

2026-05-19 15:53:57 273 1

原创 INT4 量化怎么做,让 NPU 加速你的本地 AI 应用

本文详解 INT4 量化技术如何突破显存瓶颈,助力 NPU 加速本地 AI 应用。通过对比 INT8 与 INT4 原理,演示利用 llama.cpp 将 Qwen 模型转为 GGUF 格式,实现在 AMD Ryzen AI 平台上的高效推理,显著降低功耗并提升速度,是端侧大语言模型部署的关键方案。

2026-05-19 15:50:26 371

原创 从零搭建本地知识库,Ryzen AI 平台 RAG 实战教程

本文详解基于 Ryzen AI 平台从零搭建本地知识库的 RAG 实战教程。利用 Strix Halo 架构与 NPU 加速,实现大模型端侧部署,确保数据隐私安全。涵盖向量数据库选型、文档预处理及 Ollama 接入,助开发者构建高效、低成本的私有智能系统。

2026-05-19 15:49:49 295

原创 笔记本跑大模型,AMD Ryzen AI Strix Halo 实测指南

本文实测 AMD Ryzen AI Strix Halo 在笔记本运行大模型的突破表现。凭借 96GB 统一显存,本地可流畅部署 70B 参数模型,解决显存瓶颈。结合 NPU 加速与低功耗优势,打造隐私安全的本地 AI Agent,推动端侧 AI 创新落地。

2026-05-19 15:45:57 466

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除