Xinference使用之【嵌入模型】gte-Qwen2运行步骤及异常问题解决

Andy O‘Connor

已于 2024-09-26 11:21:23 修改

阅读量738

点赞数 17

分类专栏： Xinference运行大模型文章标签：语言模型知识图谱

于 2024-09-23 11:26:17 首次发布

本文链接：https://blog.csdn.net/weixin_38546915/article/details/142453711

版权

Xinference运行大模型专栏收录该内容

4 篇文章 0 订阅

订阅专栏

gte-Qwen2运行步骤及异常问题解决-目录

运行步骤
异常问题一
异常问题二
异常问题三

运行步骤

选择Launch Model->EMBEDDING MODELS，搜索gte-Qwen2嵌入模型，如下图所示：
搜索gte-Qwen2嵌入模型
点击模型进入配置页面，Replica选择1，Device选择GPU，如下图所示：
gte-Qwen2参数配置
点击左下角按钮，开始下载并运行gte-Qwen2嵌入模型，如下图所示：

gte-Qwen2运行中
运行成功后自动跳转至Running Models

至此Xinference嵌入模型gte-Qwen2运行成功！

异常问题一

异常问题描述：

ImportError: [address=192.168.110.87:51460, pid=16284] Failed to import module 'SentenceTransformer'
Please make sure 'sentence-transformers' is installed. You can install it by `pip install sentence-transformers`

gte-Qwen2嵌入模型异常问题

异常问题排查：

仔细观察不难发现，异常信息里已经说明缺少sentence-transformers依赖，按照提示安装依赖即可，运行以下命令：

pip install sentence-transformers

异常问题处理：

使用国内镜像资源速度会快一些：

pip install sentence-transformers -i https://pypi.tuna.tsinghua.edu.cn/simple

sentence-transformers安装成功

异常问题二

异常问题描述：

Failed to import transformers.trainer because of the following error (look up to see its traceback):
Numpy is not available

gte-Qwen2嵌入模型异常问题

异常问题排查：

推测是因为numpy版本太高导致依赖引用失败，可降低至1.x版本

异常问题处理：

运行以下命令重新安装低版本numpy ：

pip install numpy==1.26.4

异常问题三

异常问题描述：

This modeling file requires the following packages that were not found in your environment: flash_attn. Run 'pip install flash_attn'

gte-Qwen2嵌入模型异常问题

异常问题排查：

初步猜测是缺少flash_attn的依赖包；查询flash_attn的安装方法。

异常问题处理：

Windows系统whl文件下载地址：https://github.com/bdashore3/flash-attention/releases
找到适合自己电脑环境的文件，如何找到适合自己的文件呢，下面解读一下：

flash_attn-2.4.1：代表flash_attn的版本是2.4.1
cu121：           代表cuda的版本是12.1
torch2.1：        代表pytorch的版本是2.1.x
cp310-cp310：     代表python的版本是3.10.xx
win_amd64：       代表是Windows64位操作系统

flash_attn下载页面
下载成功后得到名为flash_attn-2.4.1+cu121torch2.1cxx11abiFALSE-cp310-cp310-win_amd64.whl的文件；然后在自己相应的Conda环境下进入刚刚下载的whl文件目录（或者将文件转移至对应目录也可以），执行以下安装命令：

pip install .\flash_attn-2.4.1+cu121torch2.1cxx11abiFALSE-cp310-cp310-win_amd64.whl

显示如下图所示，代表安装成功：
flash_attn安装成功
然后重新启动一下Xinference，发现依然报同样的错误。
继续排查发现本机Conda环境的torch版本是2.4.1，和flash_attn要求的2.1.x版本不一致，试着将torch版本调整为2.1.2，执行以下命令：

conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia

注意：pytorch版本建议使用2.1.2版本，使用2.1.0版本在加载模型阶段不会报错，但是在使用知识库对话阶段可能会报一下错误：

probability tensor contains either `inf`, `nan` or element < 0

torch版本调整成功后，再重新启动Xinference，然后重新运行gte-Qwen2嵌入模型，运行成功了，这说明解决问题思路是对的，一点细节都不能放过：
gte-Qwen2运行成功

至此Xinference运行gte-Qwen2嵌入模型异常问题已解决。

Andy O‘Connor

关注

17
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录