只需三步,在几百块的香橙派 5 上跑 Deepseek R1

内容预告

这期带你一步步在香橙派 5 Max 上跑 Deepseek R1。 结论先行: 香橙派 5 (RK3588) 采用不同计算单元推理速度: NPU >> CPU > GPU
Deepseek-8B 8bit 量化版 (8.6GB) 推理速度在 2.8 tokens / 秒
其他小模型,比如 Llama 3.2, Phi 3, Qwen 1.5B 推理速度会更快。

所有文件项目 下载链接在文末 (国内 ICloud 直链下载, 看我的 ICloud 容量限制,后期会删除。也可自行🪜外网下载)。

💡 下期预告:如何像 OpenAI 一样用聊天界面在 RK3588 上跟 LLM 聊天?不想错过的朋友欢迎关注公众号


RK3588 的 AI 推理速度

关于要为 树莓派 4 或者 5 证明的朋友,先来看下面这张 CPU Benchmark 对比图
image.png

亮绿色是 树莓派 5,亮橙色是 香橙派 5。 孰强孰弱?不言自明。 目前市场上能打的,大概只有英伟达的 Jetson 系列,但 16GB 版本要 4000+ RMB。

而香橙派 AI Pro 虽然算力更高 (8-20 TOPs),但听说(三个个例听来的,目前无实测数据)发热严重,希望华为 昇腾 310B 的硬件优化再做好点,另外软件生态也要跟上。

吐槽一句:瑞芯微是难产了吗?RK3688 什么时候出?RK3588 能吹一辈子牛吗?


如何在香橙派 5 (RK3588) 上运行 LLM?

第一步:下载并安装项目

打开终端,执行以下命令:

git clone https://github.com/Pelochus/ezrknn-llm.git
cd ezrknn-llm
sudo bash install.sh

我把项目下载在了 orange-pi 目录下。
如果你用默认路径,项目会下载在 Home 目录。

image.png
image.png

第二步:下载适配 RK3588 的 LLM 模型

进入 Huggingface 的 RK3588 模型专区 🔗
👉 https://huggingface.co/models?sort=trending&search=rk3588

image.png
image.png

最近更新 排序,推荐下载 DeepSeek R1 蒸馏模型

  • 红色框:8B 模型 (8.5GB)
  • 绿色框:14B 模型 (目前作者还没有更新,不过挺期待)

💡 建议购买至少 16GB 内存的香橙派 5,8GB 版本也可以跑一些小模型: 比如 Llama 3.2, Phi3, Qwen 1.5B 等,回答速度杠杠的。

我下载了最右上角的模型,点击进入 HuggingFace 页面,下载模型文件 📂 deepseek-r1-7B-rkllm1.1.4.rkllmimage.png

默认在 Download 目录下 image.png


第三步:运行 LLM

使用以下命令启动:

rkllm /home/jason/Downloads/deepseek-r1-7B-rkllm1.1.4.rkllm 4096 4096
  • [model path]: /home/jason/Downloads/deepseek-r1-7B-rkllm1.1.4.rkllm 你下载的模型文件路径
  • [max_new_tokens]: 4096 控制生成 token 数量 (越大,回复越长)
  • [max_context_len]: 4096 影响模型记忆容量 (越大,记忆上下文越多)
image.png
image.png

运行过程中可能会报错,如果报错请到 ezrknn-llm/rkllm-runtime/runtime/Linux/librkllm_api/include/rkllm.h 这个头文件中的第三行插入 #include <cstdint> image.png


NPU、CPU、GPU 推理速度对比

在 RK3588 上运行 LLM,推理速度如下

计算单元 速度 测试模型 GPU 1.25 tokens/s Llama-7B 4bit 量化版 (4GB, 5Plus) CPU 3.12 tokens/s Llama-7B 4bit 量化版 (4GB, 5Plus) NPU 2.84 tokens/s Deepseek-8B 8bit 量化版 (8GB, 5Max)

结论

NPU >> CPU > GPU ✅
NPU 的推理速度明显领先 GPU,但稍慢于 CPU。
但 CPU 占用率很高,而 NPU 能释放 CPU 资源,实际体验更好!


模型载入 & 运行

载入后,系统 + 模型共占 10.6GB 内存
CPU 占用 10% 左右,说明 LLM 主要在 NPU 上跑

💡 测试问题

"给我的公众号上的朋友们写一首赛博朋克风格的爱情赞歌"

image.png 模型载入后,加上系统软件一起占用了 10.6GB 内存。CPU 几乎维持在 10% 上下,因为 LLM 加载在 NPU 上跑。

给公众号的朋友们献上这首 赛博朋克风格的爱情赞歌 image.png


总结 & 互动

香橙派 5 (RK3588) 本地跑 LLM,值得入手吗?适合:

  • 16GB 版本,可流畅跑 7B-8B 级别模型
  • 想体验 NPU 跑 AI 的玩家
  • 对 Jetson 价格敏感,但仍需要 AI 计算能力

不适合:

  • 8GB 版本,容易受限,推荐跑小于 8B 的模型

你对 RK3588 跑 AI 有什么想法?
📢 欢迎留言讨论,或者分享你的实测结果!🚀

如果你的 Ubuntu 环境还没设置好,请参考这篇

如果你对其他的硬件感兴趣,请参考下面的文章

树莓派环境搭建:

工具及模型下载链接🔗

  • 公众号回复 "20250207"

参考链接

  1. 🔗 https://briliantn.com/blog/2024/rockchip-llm/
  2. 🔗 https://github.com/c0zaut
  3. 🔗 https://huggingface.co/models?sort=trending&search=rk3588

不定期更新专业知识和有趣的东西,欢迎反馈、点赞、加星

您的鼓励和支持是我坚持创作的最大动力!ღ( ´・ᴗ・` )

### 安装和配置 DeepSeek R1 #### 准备工作 为了在 MacBook 上成功安装和配置 DeepSeek R1,需先确认设备满足最低硬件需求。鉴于 DeepSeek-R1 对资源的需求较高,建议使用配备 M1 或更新版本芯片的 Mac 设备[^1]。 #### 安装 Homebrew 和依赖项 Homebrew 是 macOS 平台上的一款包管理工具,可以简化软件安装过程。通过执行如下命令来安装 Homebrew: ```bash /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" ``` 完成 Homebrew 的安装之后,继续安装必要的开发环境组件,如 Python、Git 及其他可能需要的基础库[^2]。 #### 获取并编译源码 由于官方并未提供针对 macOS 特定架构优化过的二进制文件分发版,因此通常情况下需要自行下载项目仓库中的源代码,并按照给定说明文档来进行本地构建。对于支持 Apple Silicon 架构的应用程序来说,利用像 `llama.cpp` 这样的生态以及苹果自家推出的 MLX 库能够极大提升性能表现[^3]。 #### 配置运行环境 根据具体应用案例调整参数设置,确保所有外部服务(数据库连接、API 密钥等)均已正确配置完毕。如果涉及到 GPU 加速,则还需额外加载 Metal 工具链或其他适配层以便充分利用内置图形处理器的能力。 #### 测试验证 最后一步是对整个系统进行全面测试,包括但不限于单元测试、集成测试乃至压力测试等多个方面,以此保证最终成果稳定可靠。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值