LLM训推适配-[昇腾910B]-大模型量化推理-qwen2-72B

有来有去9527

已于 2024-09-04 20:05:30 修改

阅读量2k

点赞数 9

CC 4.0 BY-SA版权

分类专栏： Ascend训推 llm 文章标签：人工智能 transformer AIGC

于 2024-09-04 20:03:19 首次发布

本文链接：https://blog.csdn.net/bmfire/article/details/141902608

LLM训推适配-[昇腾910B]-大模型量化推理

推理框架MindIE
目前支持w8a8/w8a16/w8a16三种量化方式

0.环境介绍

软件	版本
驱动	24.1.rc1
cann	8.0.T37
Ascend-mindie	MindIE 1.0.T61.B010
mindie-rt	1.0.T61.B010
mindie-torch	1.0.T61.B010
mindie-service	1.0.T61.B010
mindie-llm	1.0.T61.B010

自建镜像或者使用ascendhub发布的镜像

1.qwen2-72B-Chat w8a16量化


#1. 启动容器
docker run --rm  -it -u root --name=mindie_t61 --net=host --privileged=true -w /home --device=/dev/davinci_manager --device=/dev/devmm_svm --device=/dev/hisi_hdc