基于xinference推理引擎 + glm4-9b-chat模型的本地化部署探索

suibianshen2012

于 2024-07-12 09:25:25 发布

阅读量205

点赞数 4

文章标签：大模型 glm4 xinference langchain

本文链接：https://blog.csdn.net/suibianshen2012/article/details/140006528

版权

【备注】从langchain-chatchat v0.3开始，所有的模型配置，均由推理模型（如：xinference ）进行加载和启动。

xinference 中配置并启动模型

1、查看支持的模型

xinference registrations --model-type LLM

2、执行transformer推理

xinference launch --model-name custom-glm4-chat --model-format pytorch --model-engine Transformers

【备注】可以用-u自定模型的uid名字

xinference launch --model-name custom-glm4-chat -u glm4-chat --model-format pytorch --model-engine Transformers

4、启动xinference 的命令行方式对话

xinference chat --model-uid glm4-chat

3、配置embedding

执行如下命令加载并执行embedding模型

xinference launch --model-name bge-large-zh-v1.5 --model-type embedding

出现如下提示，表示执行成功

【备注】可以用-u指定模型的uid名字

xinference launch --model-name bge-large-zh-v1.5.self -u bge-large-zh-v1.5 --model-type embedding

关注