Qwen2.5-VL 是 Qwen 推出的全新旗舰视觉语言模型,较比前身 Qwen2-VL 有了重大的飞跃。该模型不仅能够掌握花、鸟、鱼和昆虫等常见物体的识别,还能分析图像中的复杂文本、图表、图标、图形和布局。
该模型的高级功能,能够理解长度超过一小时的视频、精确定位其中的特定事件,并通过生成边界框或点来准确定位图像中的对象。它还为坐标和属性提供稳定的 JSON格式 进行输出,确保需要结构化数据任务的准确性。
Qwen2.5-VL 还支持扫描文档(如表格、表格等)的结构化输出,这对金融和商业等行业非常有益。
Qwen2.5-VL-72B-Instruct 在各种测试中均表现出色,展现了其处理各个领域和任务的多功能性。它的表现优于Gemini 2 Flash、GPT-4o和Claude 3.5 Sonnet等模型,巩固了作为顶级视觉语言模型的地位。
本地部署 Qwen2.5-VL :
电脑上先安装好 Git 和 Python 环境,没有的可以自行先去安装。点击下载Python Release Python 3.10.6 | Python.org
步骤:
<1>首先克隆 Qwen2.5-VL GitHub 存储库并导航到项目目录:
git clone https://github.com/QwenLM/Qwen2.5-VL
cd Qwen2.5-VL
<2>使用以下命令安装 Web 应用程序所需的依赖项:
pip install -r requirements_web_demo.txt
<3>为确保与 GPU 兼容,请安装支持 CUDA 的最新版本的 PyTorch、TorchVision 和TorchAudio。即便已经安装了 PyTorch,在运行 Web 应用程序时也可能会遇到问题,所以最好更新一下:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
<4>更新 Gradio 和 Gradio Client 以避免连接和 UI 相关的错误,因为旧版本可能会导致问题出现:
pip install -U gradio gradio_client
<5>模型的下载安装,总共有3个选项:
较小的 3B 模型,建议在 GPU 内存有限的笔记本电脑(例如 8GB VRAM)上使用。
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-3B-Instruct"
显存高于8G的可以选择7B模型,性能、效果更强。
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-7B-Instruct"
如果是土豪,那么可以直接上72B的最大模型,性能直达峰顶!
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-72B-Instruct"
可以看到,它首先下载了模型,然后加载了处理器和模型:
只需在浏览器上打开本地链接 http://127.0.0.1:7860 就可以正常使用了。