本地部署Qwen2.5-VL最强的开源视觉大模型！完全免费！

世味煮成茶.

已于 2025-02-18 11:53:31 修改

阅读量1.1k

点赞数 4

分类专栏： AI 文章标签：开源

于 2025-02-18 11:23:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_58885781/article/details/145700204

版权

AI 专栏收录该内容

9 篇文章

订阅专栏

Qwen2.5-VL 是 Qwen 推出的全新旗舰视觉语言模型，较比前身 Qwen2-VL 有了重大的飞跃。该模型不仅能够掌握花、鸟、鱼和昆虫等常见物体的识别，还能分析图像中的复杂文本、图表、图标、图形和布局。

该模型的高级功能，能够理解长度超过一小时的视频、精确定位其中的特定事件，并通过生成边界框或点来准确定位图像中的对象。它还为坐标和属性提供稳定的 JSON格式进行输出，确保需要结构化数据任务的准确性。

Qwen2.5-VL 还支持扫描文档（如表格、表格等）的结构化输出，这对金融和商业等行业非常有益。

Qwen2.5-VL-72B-Instruct 在各种测试中均表现出色，展现了其处理各个领域和任务的多功能性。它的表现优于Gemini 2 Flash、GPT-4o和Claude 3.5 Sonnet等模型，巩固了作为顶级视觉语言模型的地位。

本地部署 Qwen2.5-VL ：

电脑上先安装好 Git 和 Python 环境，没有的可以自行先去安装。点击下载Python Release Python 3.10.6 | Python.org

步骤：

<1>首先克隆 Qwen2.5-VL GitHub 存储库并导航到项目目录：

git clone https://github.com/QwenLM/Qwen2.5-VL

cd Qwen2.5-VL

<2>使用以下命令安装 Web 应用程序所需的依赖项：

pip install -r requirements_web_demo.txt

<3>为确保与 GPU 兼容，请安装支持 CUDA 的最新版本的 PyTorch、TorchVision 和TorchAudio。即便已经安装了 PyTorch，在运行 Web 应用程序时也可能会遇到问题，所以最好更新一下：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

<4>更新 Gradio 和 Gradio Client 以避免连接和 UI 相关的错误，因为旧版本可能会导致问题出现：

pip install -U gradio gradio_client

<5>模型的下载安装，总共有3个选项：

较小的 3B 模型，建议在 GPU 内存有限的笔记本电脑（例如 8GB VRAM）上使用。

python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-3B-Instruct"

显存高于8G的可以选择7B模型，性能、效果更强。

python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-7B-Instruct"

如果是土豪，那么可以直接上72B的最大模型，性能直达峰顶！

python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-72B-Instruct"

可以看到，它首先下载了模型，然后加载了处理器和模型：

只需在浏览器上打开本地链接 http://127.0.0.1:7860 就可以正常使用了。

<6> 可以上传带有文本和多个图形的图像，并让模型对其进行解释。即使是较小的 3B 模型也表现出令人印象深刻的性能，可以识别图像中的复杂细节。

如果你的电脑硬件不支持，那么可以直接使用官方的免费平台来使用，当然是有额度限制。唯一的好处可以直接免费使用 Qwen 2.5 VL 最强的78B模型！官方使用地址：Qwen Chat

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。