16.7K star！微软AI项目硬核开源，带飞你的电脑！

最新推荐文章于 2025-02-25 21:55:50 发布

程序猿李巡天

最新推荐文章于 2025-02-25 21:55:50 发布

阅读量1k

点赞数 10

文章标签： microsoft 人工智能数据分析数据挖掘知识图谱 excel

本文链接：https://blog.csdn.net/m0_59235945/article/details/145860828

版权

咱们平时用Excel改表格、点网页填表单的时候，有没有觉得电脑特别不聪明？比如每次都要手动教它"点击左上角那个红色按钮"，连个复选框都认不出来。要是能让AI像人类一样直接"看懂"屏幕上的各种按钮、输入框该多好！

最近开源君发现了个不得了的开源项目 - OmniParser，一个超级智能的“数字助手”，它不仅能看懂你的电脑界面，还能帮你完成各种操作，简直是程序员和懒癌患者的福音！

项目简介

OmniParser 是一个来自微软的基于纯视觉的 AI 工具，说白了，它就像给 AI 装上了一双 “慧眼”，能通过屏幕截图识别并理解电脑界面上的每一个可交互元素，比如按钮、输入框、图标等等。不管是 Windows 弹窗、网页表单、Office 文档编辑器，还是手机 APP 界面，它都能看得明明白白。而且，它还能把这些 “看到” 的内容转化为结构化数据（比如 JSON 格式），然后联动 GPT-4o、DeepSeek 等大模型，让 AI 像人类一样操控电脑，完成点击、输入、拖拽等操作。

目前在Github上收获了16.7K star！

性能特色

小图标精准识别：它对微小图标识别能力超强，经大量小图标数据训练，8×8 像素的 UI 元素也能精准识别。在高分辨率基准测试中，OmniParser V2 搭配 GPT-4o 的方案准确率达 39.6%，远超传统方法。
响应速度超快：V2 版本推理速度比上一代快 60%，延迟更低。即便界面有动态变化，如加载进度条、弹窗等，也能实时追踪，操作流畅不卡顿。
开发便捷友好：微软开源的 OmniTool 集成多项功能，是个 Docker 化开发环境。开发者调用 API 就能快速定制 AI 助手，还能结合 DeepSeek 优化决策逻辑。
大模型兼容性强：支持众多主流大模型，像 OpenAI 的 GPT-4V、DeepSeek 的 R1、Claude 3.5 Sonnet、Qwen 的 2.5VL 以及 Anthropic Computer Use 等，满足不同需求。
跨平台能力出色：不受系统限制，Windows、macOS 系统都适用，还能在服务器部署实现跨平台自动化操作，例如在服务器部署服务，通过 macOS 客户端就能控制。

快速安装使用

快速上手 OmniParser，可以先去官方的demo站点快速体验一下：

  
`https://huggingface.co/spaces/microsoft/OmniParser   `

如果你想自己部署安装，把项目弄到本地。打开命令行工具，输入下面的命令：

  
`git clone https://github.com/microsoft/OmniParser.git   cd OmniParser   `

接下来，得准备个 Python 虚拟环境，这样能避免各种环境冲突的问题。继续在命令行里输入：

  
`conda create -n "omni" python==3.12   conda activate omni   `

然后，安装项目所需的依赖包。这一步很重要，少了可能会出各种奇怪的错误。输入下面的命令来安装：

  
`pip install -r requirements.txt   `

到这里，环境就差不多准备好了。不过，还得下载模型文件，这可是让 OmniParser 发挥作用的关键。根据 GitHub 页面的说明，可以用下面的命令来下载模型文件：

  
`# 下载模型文件   for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done   # 重命名文件夹   mv weights/icon_caption weights/icon_caption_florence   `

最后，运行下面的命令gradio_demo.py即可体验项目 Demo。运行后，它会在本地启动个服务，你打开浏览器访问就能看到效果了。

项目展示体验

OmniParser 真是个很厉害的开源项目。它让 AI 能真正理解电脑界面，帮我们搞定那些繁琐的重复性工作。对于开发者来说，它的开源生态也很强大，能让人快速上手开发自己的 AI 助手。开源君觉得，这个项目未来肯定会有很大的发展潜力，说不定以后咱们的办公效率就能因为它而大大提高呢！

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述