文章目录
一、关于 UI-TARS-desktop
UI-TARS Desktop是一个基于UI-TARS(视觉-语言模型)的GUI代理应用程序,允许您使用自然语言控制您的计算机。
- github : https://github.com/bytedance/UI-TARS-desktop
- 📑论文 | 🤗Hugging Face 模型 | 🤖ModelScope
- 🖥️桌面应用程序 | 👓中间场景(在浏览器中使用)
⚠️重要公告:GGUF模型性能
GGUF模型经历了量化,但不幸的是,它的性能无法保证。因此,我们决定将其降级。
💡替代解决方案:您可以使用**云部署或[本地部署vLLM]**(如果您有足够的GPU资源)。
我们感谢您的理解和耐心,因为我们努力确保获得最佳体验。
更新
Showcases
教学 | 视频 |
---|---|
使用网络浏览器获取旧金山的当前天气 | new_mac_action_weather.mp4 |
发送一条内容为“你好,世界”的推特 | new_send_twitter_windows.mp4 |
特点
- 🤖视觉语言模型支持的自然语言控制
- 🖥️截图和视觉识别支持
- 🎯精确的鼠标和键盘控制
- 💻跨平台支持(Windows/MacOS)
- 🔄实时反馈和状态显示
- 🔐私密和安全-完全本地处理
二、快速入门
1、下载
您可以从我们的发布页面下载UI-TARS Desktop的最新发布版本。
2、安装
macOS
1、将UI TARS应用程序拖到Applications文件夹中
2、在MacOS中启用UI TARS的权限:
- 系统设置->隐私和安全->可访问性
- 系统设置->隐私和安全->屏幕录制
3、然后打开UI TARS应用,可以看到如下界面:
Windows
仍然要运行应用程序,您可以看到以下界面:
3、部署
云部署
我们建议使用HuggingFace推理端点进行快速部署。我们提供两个文档供用户参考:
英文版:GUI模型部署指南
中文版: GUI模型部署教程
本地部署[vLLM]
我们建议使用vLLM进行快速部署和推理,需要使用vllm>=0.6.1
。
pip install -U transformers
VLLM_VERSION=0.6.6
CUDA_VERSION=cu124
pip install vllm==${VLLM_VERSION} --extra-index-url https://download.pytorch.org/whl/${CUDA_VERSION}
下载模型
我们在Hugging Face 上提供了三种模型尺寸:2B、7B和72B。为了获得最佳性能,我们建议使用7B-DPO或72B-DPO模型(根据您的硬件配置):
启动OpenAI API服务
运行以下命令以启动与OpenAI兼容的API服务:
python -m vllm.entrypoints.openai.api_server --served-model-name ui-tars --model <path to your model>
输入您的API信息
注意:VLM Base Url是与OpenAI兼容的API端点(有关详细信息,请参阅OpenAI API协议文档)。
三、开发
只需简单的两个步骤即可运行应用程序:
pnpm install
pnpm run dev
注意:在MacOS上,您需要授予用于运行命令的应用程序(例如iTerm2、终端)的权限。
测试
# Unit test
pnpm run test
# E2E test
pnpm run test:e2e
系统要求
- Node.js >= 20
- 支持的操作系统
- Windows 10/11
- macOS 10.15+
2025-02-03(一)