华为Atlas Duo 300I DUO推理卡部署LLM推理服务

易寻fly

已于 2024-10-31 16:57:59 修改

阅读量1w

点赞数 28

文章标签：人工智能华为算法自然语言处理 linux

于 2024-10-29 15:19:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37447415/article/details/143308246

版权

本文是在Atlas Duo 300I 推理卡上部署LLM推理服务的一次尝试，完整的安装文档参考Ascend 官方。安装过程中遇到问题可以在社区提问，目前该推理卡对新模型的支持不是太好，且实测下来性能不及3090（吐槽：显存虚报，标记48GB实际只有44GB；算力140TFLOAPS，但推理速度来看远低于3090）。如果用于大模型训练或推理，直接使用910。

安装的流程为：

step1：安装驱动和固件

step2：下载mindIE镜像并启动容器

step3：安装CANN等软件

step4：使用mindie-service部署大模型推理服务

由于物理安装比较麻烦，官方提供了镜像，镜像申请后按照相关步骤下载即可，包含cann、mindie和TATB-Models，这样安装起来比较方便。

1. 安装驱动和固件

参考文档选择安装场景-软件安装-CANN商用版8.0.RC2.2开发文档-昇腾社区进行安装，由于我的机器已经安装好，就不进行说明。如果使用npu-smi info出现卡的信息，则证明安装正常。

2. 下载镜像

进入mindie 镜像页，登录后申请下载，我是24h内就通过了，通过后下载对应版本的镜像包即可。

下载后镜像如下图所示，加载后约7GB。

使用如下命令启动容器，注意根据自己的实际情况修改相关目录

docker run -itd --ipc=host --net=host \
--name=llm_infer \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device&

最低0.47元/天解锁文章

博客等级

码龄8年

5
原创

80
点赞

143
收藏

45
粉丝

关注

私信

分类专栏

展开全部收起

最新评论

文本向量化推理框架（TEI）使用说明
一只小小加菲猫: docker pull ddosify/text-embeddings-inference:cpu-1.5.1
华为Atlas Duo 300I DUO推理卡部署LLM推理服务
易寻fly: 你好，抱歉这个问题我没法回答你，当时用的是客户的机器，具体的硬件数据没有记录
华为Atlas Duo 300I DUO推理卡部署LLM推理服务
顺其自然~: 你好，请问你用的是几U的服务器，插4张atlas300i Duo发热厉害吗？我在一个riser上插两张卡温度持续升高
华为Atlas Duo 300I DUO推理卡部署LLM推理服务
blue coast: 在魔搭社区下载的都是bf16的，没找到fp16的。。。
华为Atlas Duo 300I DUO推理卡部署LLM推理服务
易寻fly: 在Huggingface、ModelScope等网站下载的模型文件

最新文章

目录

展开全部

收起

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。