文章目录
微软发布视觉Agent解析框架 OmniParser最新版本V2,可将OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)、Anthropic(Sonnet)等大模型,转化为“计算机使用智能体”(Computer Use Agent)。相比前代版本,OmniParser V2在检测更微小可交互元素时精度更高、推理速度更快。具体而言,V2通过使用更大规模的交互元素检测数据集和图标功能描述数据进行训练,并通过缩小图标描述模型的输入图像尺寸,推理延迟较前代降低60%。
接下来我们将介绍如何在本地linux部署安装OmniParser-V2。
代码:https://github.com/microsoft/OmniParser
模型地址:https://huggingface.co/microsoft/OmniParser-v2.0
or https://modelscope.cn/models/AI-ModelScope/OmniParser-v2.0/summary
OmniParser-V2本地部署安装
1. 环境准备
1.1 下载项目
使用以下命令克隆项目仓库:
git clone https://github.com/microsoft/OmniParser.git
1.2 创建环境并安装依赖
导航到项目目录并运行以下命令来安装所需的依赖项:
cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
此时环境一切准备就绪。
2. 下载模型
使用以下命令下载模型文件:
mkdir weights
cd weights
modelscope download --model AI-ModelScope/OmniParser-v2.0 --local_dir ./
mv weights/icon_caption weights/icon_caption_florence
目录结构如下:
📁weights/
├──📁 icon_caption_florence/
│ ├──📁 model.safetensors
│ ├──📁 generation_config.json
│ └──📁 config.json
├── icon_detect/
├── configuration.json
└── config.json
后续仍需下载多种模型文件,将在后续run步骤中按照运行报错的方式进行介绍。
3. 运行模型
运行以下命令来启动服务:
python gradio_demo.py
此时,如果网络畅通的情况下,程序会自动下载所需的模型文件,并在下载完成后开始运行。如果一切顺利,你将看到模型已部署完成。

最低0.47元/天 解锁文章
4705

被折叠的 条评论
为什么被折叠?



