1.创造对应的环境,下载LmDepoly对应的相关依赖

2.进行进去项目目录,粘贴脚本,启动本地推理

3.运行结果

4.指定TurboMind为推理引擎,进行推理

5.运行结果

6.运行大模型离线部署代码

7.运行结果

8.视觉模型离线部署

9.运行代码

10.进行多图推理

11.得到结果

12.下载量化的相关依赖

13.量化internlm2-chat-7b模型

14.量化结果

15.量化InternVL3-1B模型

16.量化结果

17.粘贴脚本,进行Key-Value(KV) Cache 量化

1906

被折叠的 条评论
为什么被折叠?



