大模型实战 - ‘OmniParser-V2本地部署安装‘


微软发布视觉Agent解析框架 OmniParser最新版本V2,可将OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)、Anthropic(Sonnet)等大模型,转化为“计算机使用智能体”(Computer Use Agent)。相比前代版本,OmniParser V2在检测更微小可交互元素时精度更高、推理速度更快。具体而言,V2通过使用更大规模的交互元素检测数据集和图标功能描述数据进行训练,并通过缩小图标描述模型的输入图像尺寸,推理延迟较前代降低60%。

接下来我们将介绍如何在本地linux部署安装OmniParser-V2。

代码:https://github.com/microsoft/OmniParser
模型地址:https://huggingface.co/microsoft/OmniParser-v2.0
or https://modelscope.cn/models/AI-ModelScope/OmniParser-v2.0/summary

OmniParser-V2本地部署安装

1. 环境准备

1.1 下载项目

使用以下命令克隆项目仓库:

git clone https://github.com/microsoft/OmniParser.git
1.2 创建环境并安装依赖

导航到项目目录并运行以下命令来安装所需的依赖项:

cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

此时环境一切准备就绪。

2. 下载模型

使用以下命令下载模型文件:

mkdir weights
cd weights
modelscope download --model AI-ModelScope/OmniParser-v2.0 --local_dir ./
mv weights/icon_caption weights/icon_caption_florence

目录结构如下:

📁weights/
      ├──📁 icon_caption_florence/
      │   ├──📁 model.safetensors
      │   ├──📁 generation_config.json
      │   └──📁 config.json
      ├── icon_detect/
      ├── configuration.json
      └── config.json

后续仍需下载多种模型文件,将在后续run步骤中按照运行报错的方式进行介绍。

3. 运行模型

运行以下命令来启动服务:

python gradio_demo.py

此时,如果网络畅通的情况下,程序会自动下载所需的模型文件,并在下载完成后开始运行。如果一切顺利,你将看到模型已部署完成。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GODLIKENESS

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值