只需三步，在几百块的香橙派 5 上跑 Deepseek R1

斯多葛的信徒

已于 2025-02-08 03:48:45 修改

阅读量3.2k

点赞数 18

分类专栏： AI 硬件生活文章标签：人工智能 arm开发边缘计算 llama

于 2025-02-07 19:07:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29824567/article/details/145500877

版权

生活同时被 2 个专栏收录

17 篇文章

订阅专栏

7 篇文章

订阅专栏

内容预告

这期带你一步步在香橙派 5 Max 上跑 Deepseek R1。结论先行: 香橙派 5 (RK3588) 采用不同计算单元推理速度: NPU >> CPU > GPU
Deepseek-8B 8bit 量化版 (8.6GB) 推理速度在 2.8 tokens / 秒。
其他小模型，比如 Llama 3.2, Phi 3, Qwen 1.5B 推理速度会更快。

所有文件项目 下载链接在文末 (国内 ICloud 直链下载, 看我的 ICloud 容量限制，后期会删除。也可自行🪜外网下载)。

💡 下期预告：如何像 OpenAI 一样用聊天界面在 RK3588 上跟 LLM 聊天？不想错过的朋友欢迎关注公众号！

RK3588 的 AI 推理速度

关于要为 树莓派 4 或者 5 证明的朋友，先来看下面这张 CPU Benchmark 对比图：

亮绿色是 树莓派 5，亮橙色是 香橙派 5。孰强孰弱？不言自明。目前市场上能打的，大概只有英伟达的 Jetson 系列，但 16GB 版本要 4000+ RMB。

而香橙派 AI Pro 虽然算力更高 (8-20 TOPs)，但听说(三个个例听来的，目前无实测数据)发热严重，希望华为 昇腾 310B 的硬件优化再做好点，另外软件生态也要跟上。

吐槽一句：瑞芯微是难产了吗？RK3688 什么时候出？RK3588 能吹一辈子牛吗？

如何在香橙派 5 (RK3588) 上运行 LLM？

第一步：下载并安装项目

打开终端，执行以下命令：

git clone https://github.com/Pelochus/ezrknn-llm.git
cd ezrknn-llm
sudo bash install.sh

我把项目下载在了 orange-pi 目录下。
如果你用默认路径，项目会下载在 Home 目录。

image.png

第二步：下载适配 RK3588 的 LLM 模型

进入 Huggingface 的 RK3588 模型专区 🔗
👉 https://huggingface.co/models?sort=trending&search=rk3588

image.png

按 最近更新 排序，推荐下载 DeepSeek R1 蒸馏模型：

红色框：8B 模型 (8.5GB)
绿色框：14B 模型 (目前作者还没有更新，不过挺期待)

💡 建议购买至少 16GB 内存的香橙派 5，8GB 版本也可以跑一些小模型: 比如 Llama 3.2, Phi3, Qwen 1.5B 等，回答速度杠杠的。

我下载了最右上角的模型，点击进入 HuggingFace 页面，下载模型文件 📂 deepseek-r1-7B-rkllm1.1.4.rkllm。

默认在 Download 目录下

第三步：运行 LLM

使用以下命令启动：

rkllm /home/jason/Downloads/deepseek-r1-7B-rkllm1.1.4.rkllm 4096 4096

[model path]: /home/jason/Downloads/deepseek-r1-7B-rkllm1.1.4.rkllm 你下载的模型文件路径
[max_new_tokens]: 4096 控制生成 token 数量 (越大，回复越长)
[max_context_len]: 4096 影响模型记忆容量 (越大，记忆上下文越多)

image.png

运行过程中可能会报错，如果报错请到 ezrknn-llm/rkllm-runtime/runtime/Linux/librkllm_api/include/rkllm.h 这个头文件中的第三行插入 #include <cstdint>

NPU、CPU、GPU 推理速度对比

在 RK3588 上运行 LLM，推理速度如下：

计算单元速度测试模型 GPU 1.25 tokens/s Llama-7B 4bit 量化版 (4GB, 5Plus) CPU 3.12 tokens/s Llama-7B 4bit 量化版 (4GB, 5Plus) NPU 2.84 tokens/s Deepseek-8B 8bit 量化版 (8GB, 5Max)

结论

NPU >> CPU > GPU ✅
NPU 的推理速度明显领先 GPU，但稍慢于 CPU。
但 CPU 占用率很高，而 NPU 能释放 CPU 资源，实际体验更好！

模型载入 & 运行

载入后，系统 + 模型共占 10.6GB 内存。
CPU 占用 10% 左右，说明 LLM 主要在 NPU 上跑。

💡 测试问题：

"给我的公众号上的朋友们写一首赛博朋克风格的爱情赞歌"

模型载入后，加上系统软件一起占用了 10.6GB 内存。CPU 几乎维持在 10% 上下，因为 LLM 加载在 NPU 上跑。

给公众号的朋友们献上这首 赛博朋克风格的爱情赞歌

总结 & 互动

香橙派 5 (RK3588) 本地跑 LLM，值得入手吗？ ✅ 适合：

16GB 版本，可流畅跑 7B-8B 级别模型
想体验 NPU 跑 AI 的玩家
对 Jetson 价格敏感，但仍需要 AI 计算能力

❌ 不适合：

8GB 版本，容易受限，推荐跑小于 8B 的模型

你对 RK3588 跑 AI 有什么想法？
📢 欢迎留言讨论，或者分享你的实测结果！🚀

如果你的 Ubuntu 环境还没设置好，请参考这篇：

神器!香橙派 5 Max 跑 Deepseek R1 等 AI 模型

如果你对其他的硬件感兴趣，请参考下面的文章：

树莓派环境搭建:

工具及模型下载链接🔗

公众号回复 "20250207"

参考链接

不定期更新专业知识和有趣的东西，欢迎反馈、点赞、加星

您的鼓励和支持是我坚持创作的最大动力！ღ( ´･ᴗ･` )

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。