基于xinference推理引擎 + glm4-9b-chat模型的本地化部署探索

【备注】从langchain-chatchat v0.3开始,所有的模型配置,均由推理模型(如:xinference )进行加载和启动。

xinference 中配置并启动模型

1、查看支持的模型

xinference registrations --model-type LLM

2、执行transformer推理

xinference launch --model-name custom-glm4-chat --model-format pytorch --model-engine Transformers

【备注】可以用-u自定模型的uid名字

xinference launch --model-name custom-glm4-chat -u glm4-chat --model-format pytorch --model-engine Transformers

4、启动xinference 的命令行方式对话

xinference chat --model-uid glm4-chat

3、配置embedding

执行如下命令加载并执行embedding模型

xinference launch --model-name bge-large-zh-v1.5 --model-type embedding

xf配置参考: bge-large-zh-v1.5 — Xinference

embedding模型下载:bge-large-zh-v1.5 · 模型库 (modelscope.cn)

出现如下提示,表示执行成功

【备注】可以用-u指定模型的uid名字

xinference launch --model-name bge-large-zh-v1.5.self -u bge-large-zh-v1.5 --model-type embedding

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值