运行步骤
选择Launch Model->LANGUAGE MODELS
,搜索qwen2-vl-instruct
VLLM模型,如下图所示:
点击模型进入配置页面:
Model Engine 选择 Transformers
Model Format 选择 pytorch
Model Size 选择 7(根据电脑GPU性能选择,体量越大的对GPU的要求越高)
Quantization 选择 none
N-GPU 选择 1(根据自己电脑配置选择,不一定都是1)
Replica 选择 1
如下图所示:
点击左下角按钮,开始下载并运行qwen2-vl-instruct
VLLM模型,如下图所示:
运行成功后自动跳转至Running Models
至此Xinference
嵌入模型qwen2-vl-instruct
运行成功!
异常问题一
异常问题描述
cannot import name 'Qwen2VLForConditionalGeneration' from 'transformers'
异常问题排查
异常信息解读推测是:在transformers
中不能引用Qwen2VLForConditionalGeneration
,资料查询后发现了一个解决办法:https://github.com/QwenLM/Qwen2-VL/issues/83
异常问题处理
运行以下命令:
pip install --no-cache-dir git+https://github.com/huggingface/transformers@19e6e80e10118f855137b90740936c0b11ac397f
运行结果失败:
发现是超时异常,果断切换国内镜像再试一下:
pip install --no-cache-dir git+https://github.com/huggingface/transformers@19e6e80e10118f855137b90740936c0b11ac397f -i https://pypi.tuna.tsinghua.edu.cn/simple
运行结果成功:
安装成功后transformers
的版本是4.45.0.dev0
。