gte-Qwen2运行步骤及异常问题解决-目录
运行步骤
选择Launch Model->EMBEDDING MODELS
,搜索gte-Qwen2
嵌入模型,如下图所示:
点击模型进入配置页面,Replica选择1
,Device选择GPU
,如下图所示:
点击左下角按钮,开始下载并运行gte-Qwen2
嵌入模型,如下图所示:
运行成功后自动跳转至Running Models
至此Xinference
嵌入模型gte-Qwen2
运行成功!
异常问题一
异常问题描述:
ImportError: [address=192.168.110.87:51460, pid=16284] Failed to import module 'SentenceTransformer'
Please make sure 'sentence-transformers' is installed. You can install it by `pip install sentence-transformers`
异常问题排查:
仔细观察不难发现,异常信息里已经说明缺少sentence-transformers
依赖,按照提示安装依赖即可,运行以下命令:
pip install sentence-transformers
异常问题处理:
使用国内镜像资源速度会快一些:
pip install sentence-transformers -i https://pypi.tuna.tsinghua.edu.cn/simple
异常问题二
异常问题描述:
Failed to import transformers.trainer because of the following error (look up to see its traceback):
Numpy is not available
异常问题排查:
推测是因为numpy
版本太高导致依赖引用失败,可降低至1.x
版本
异常问题处理:
运行以下命令重新安装低版本numpy
:
pip install numpy==1.26.4
异常问题三
异常问题描述:
This modeling file requires the following packages that were not found in your environment: flash_attn. Run 'pip install flash_attn'
异常问题排查:
初步猜测是缺少flash_attn
的依赖包;查询flash_attn
的安装方法。
异常问题处理:
Windows
系统whl
文件下载地址:https://github.com/bdashore3/flash-attention/releases
找到适合自己电脑环境的文件,如何找到适合自己的文件呢,下面解读一下:
flash_attn-2.4.1:代表flash_attn的版本是2.4.1
cu121: 代表cuda的版本是12.1
torch2.1: 代表pytorch的版本是2.1.x
cp310-cp310: 代表python的版本是3.10.xx
win_amd64: 代表是Windows64位操作系统
下载成功后得到名为flash_attn-2.4.1+cu121torch2.1cxx11abiFALSE-cp310-cp310-win_amd64.whl
的文件;然后在自己相应的Conda
环境下进入刚刚下载的whl文件目录(或者将文件转移至对应目录也可以),执行以下安装命令:
pip install .\flash_attn-2.4.1+cu121torch2.1cxx11abiFALSE-cp310-cp310-win_amd64.whl
显示如下图所示,代表安装成功:
然后重新启动一下Xinference
,发现依然报同样的错误。
继续排查发现本机Conda
环境的torch
版本是2.4.1
,和flash_attn
要求的2.1.x
版本不一致,试着将torch
版本调整为2.1.2
,执行以下命令:
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
注意:pytorch版本建议使用2.1.2版本,使用2.1.0版本在加载模型阶段不会报错,但是在使用知识库对话阶段可能会报一下错误:
probability tensor contains either `inf`, `nan` or element < 0
torch
版本调整成功后,再重新启动Xinference
,然后重新运行gte-Qwen2
嵌入模型,运行成功了,这说明解决问题思路是对的,一点细节都不能放过:
至此Xinference
运行gte-Qwen2
嵌入模型异常问题已解决。