Xinference使用之【嵌入模型】gte-Qwen2运行步骤及异常问题解决

运行步骤

选择Launch Model->EMBEDDING MODELS,搜索gte-Qwen2嵌入模型,如下图所示:
搜索gte-Qwen2嵌入模型
点击模型进入配置页面,Replica选择1Device选择GPU,如下图所示:
gte-Qwen2参数配置
点击左下角按钮,开始下载并运行gte-Qwen2嵌入模型,如下图所示:
gte-Qwen2运行
gte-Qwen2运行中
运行成功后自动跳转至Running Models
gte-Qwen2运行成功
至此Xinference嵌入模型gte-Qwen2运行成功!

异常问题一

异常问题描述:

ImportError: [address=192.168.110.87:51460, pid=16284] Failed to import module 'SentenceTransformer'
Please make sure 'sentence-transformers' is installed. You can install it by `pip install sentence-transformers`

gte-Qwen2嵌入模型异常问题
gte-Qwen2嵌入模型异常问题

异常问题排查:

仔细观察不难发现,异常信息里已经说明缺少sentence-transformers依赖,按照提示安装依赖即可,运行以下命令:

pip install sentence-transformers

异常问题处理:

使用国内镜像资源速度会快一些:

pip install sentence-transformers -i https://pypi.tuna.tsinghua.edu.cn/simple

sentence-transformers安装成功

异常问题二

异常问题描述:

Failed to import transformers.trainer because of the following error (look up to see its traceback):
Numpy is not available

gte-Qwen2嵌入模型异常问题
gte-Qwen2嵌入模型异常问题

异常问题排查:

推测是因为numpy版本太高导致依赖引用失败,可降低至1.x版本

异常问题处理:

运行以下命令重新安装低版本numpy

pip install numpy==1.26.4

异常问题三

异常问题描述:

This modeling file requires the following packages that were not found in your environment: flash_attn. Run 'pip install flash_attn'

gte-Qwen2嵌入模型异常问题

异常问题排查:

初步猜测是缺少flash_attn的依赖包;查询flash_attn的安装方法。

异常问题处理:

Windows系统whl文件下载地址:https://github.com/bdashore3/flash-attention/releases
找到适合自己电脑环境的文件,如何找到适合自己的文件呢,下面解读一下:

flash_attn-2.4.1:代表flash_attn的版本是2.4.1
cu121:           代表cuda的版本是12.1
torch2.1:        代表pytorch的版本是2.1.x
cp310-cp310:     代表python的版本是3.10.xx
win_amd64:       代表是Windows64位操作系统

flash_attn下载页面
下载成功后得到名为flash_attn-2.4.1+cu121torch2.1cxx11abiFALSE-cp310-cp310-win_amd64.whl的文件;然后在自己相应的Conda环境下进入刚刚下载的whl文件目录(或者将文件转移至对应目录也可以),执行以下安装命令:

pip install .\flash_attn-2.4.1+cu121torch2.1cxx11abiFALSE-cp310-cp310-win_amd64.whl

显示如下图所示,代表安装成功:
flash_attn安装成功
然后重新启动一下Xinference,发现依然报同样的错误。
继续排查发现本机Conda环境的torch版本是2.4.1,和flash_attn要求的2.1.x版本不一致,试着将torch版本调整为2.1.2,执行以下命令:

conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia

注意:pytorch版本建议使用2.1.2版本,使用2.1.0版本在加载模型阶段不会报错,但是在使用知识库对话阶段可能会报一下错误:

probability tensor contains either `inf`, `nan` or element < 0

torch版本调整成功后,再重新启动Xinference,然后重新运行gte-Qwen2嵌入模型,运行成功了,这说明解决问题思路是对的,一点细节都不能放过:
gte-Qwen2运行成功
gte-Qwen2运行成功
至此Xinference运行gte-Qwen2嵌入模型异常问题已解决。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值