Mindie在华为910B推理大模型

Mindie在华为910B推理大模型 - 掘金 (juejin.cn)

之前在华为昇腾服务器上推理了Qwen1.5-14b-chat模型,但是用Mindie RC1.0版本无法兼容openai接口,传递的文本字符数有限,不能超过16000.因此,选用了最新版本的Mindie RC2.0版本,成功推理。步骤和上述链接一致,但是下载镜像的时候用MindieRC2.0.

---------------------------------------------------------------------------------------------------------------------------------

目前利用Mindie启动了大模型服务,fastchat启动了embedding服务,然后再启动langchain-chatchat就成功运行,且推理速度和V100卡差不多。

如果大家有部署问题,可以后台私信我~

### 华为升腾910B平台部署Qwen-2大模型 #### 硬件与软件准备 为了成功在华为升腾910B AI处理器上部署Qwen-2大模型,需确保硬件配置满足需求并安装适当版本的软件包。具体来说: - **硬件**:Ascend 910B 处理器。 - **软件环境**: - 驱动版本:24.1.rc1 - CANN 版本:8.0.T37 - MindIE 及其相关组件版本均为:1.0.T61.B010[^2] #### 安装依赖库 首先,在目标机器上设置好Python虚拟环境后,通过pip工具安装必要的Python库文件,特别是`mindspore`以及`transformers`等深度学习框架。 ```bash pip install mindspore transformers ``` #### 下载预训练模型权重 访问ModelScope网站获取Qwen-2模型的相关资源链接,并下载对应的参数文件至本地存储位置。 #### 加载模型到内存中 编写一段简单的Python脚本来加载已保存下来的checkpoint数据结构体实例化一个完整的神经网络对象。 ```python from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen1.5-72B", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained("qwen/Qwen1.5-72B", device_map="auto", torch_dtype=torch.float16).eval() ``` 注意这里使用了`device_map='auto'`来自动分配张量计算任务给可用设备;同时也指定了较低精度的数据类型以节省显存空间消耗[^1]。 #### 推理优化 考虑到实际应用场景中的性能考量因素,可以采用如下几种方法来进行加速处理: - 利用INT8整数量化技术减少带宽占用同时保持较高准确性。 #### 测试验证 最后一步就是针对特定业务逻辑构建测试集样本集合用于评估整个系统的稳定性和响应速度表现情况。
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

七月花nancy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值