UI-TARS-desktop - GUI Agent App

UI-TARS



一、关于 UI-TARS-desktop

UI-TARS Desktop是一个基于UI-TARS(视觉-语言模型)的GUI代理应用程序,允许您使用自然语言控制您的计算机。


⚠️重要公告:GGUF模型性能

GGUF模型经历了量化,但不幸的是,它的性能无法保证。因此,我们决定将其降级。

💡替代解决方案:您可以使用**云部署[本地部署vLLM]**(如果您有足够的GPU资源)。

我们感谢您的理解和耐心,因为我们努力确保获得最佳体验。


更新

  • 🚀01.25:我们更新了中文版:GUI模型部署教程中的云部署部分,增加了与ModelScope平台相关的新信息。您现在可以使用ModelScope平台进行部署。

Showcases

教学视频
使用网络浏览器获取旧金山的当前天气new_mac_action_weather.mp4
发送一条内容为“你好,世界”的推特new_send_twitter_windows.mp4

特点

  • 🤖视觉语言模型支持的自然语言控制
  • 🖥️截图和视觉识别支持
  • 🎯精确的鼠标和键盘控制
  • 💻跨平台支持(Windows/MacOS)
  • 🔄实时反馈和状态显示
  • 🔐私密和安全-完全本地处理

二、快速入门


1、下载

您可以从我们的发布页面下载UI-TARS Desktop的最新发布版本。


2、安装


macOS

1、将UI TARS应用程序拖到Applications文件夹中

img


2、在MacOS中启用UI TARS的权限:

  • 系统设置->隐私和安全->可访问性
  • 系统设置->隐私和安全->屏幕录制

img


3、然后打开UI TARS应用,可以看到如下界面:

img



Windows

仍然要运行应用程序,您可以看到以下界面:

img


3、部署


云部署

我们建议使用HuggingFace推理端点进行快速部署。我们提供两个文档供用户参考:

英文版:GUI模型部署指南

中文版: GUI模型部署教程


本地部署[vLLM]

我们建议使用vLLM进行快速部署和推理,需要使用vllm>=0.6.1

pip install -U transformers
VLLM_VERSION=0.6.6
CUDA_VERSION=cu124
pip install vllm==${VLLM_VERSION} --extra-index-url https://download.pytorch.org/whl/${CUDA_VERSION}

下载模型

我们在Hugging Face 上提供了三种模型尺寸:2B、7B和72B。为了获得最佳性能,我们建议使用7B-DPO或72B-DPO模型(根据您的硬件配置):


启动OpenAI API服务

运行以下命令以启动与OpenAI兼容的API服务:

python -m vllm.entrypoints.openai.api_server --served-model-name ui-tars --model <path to your model>

输入您的API信息

img


注意:VLM Base Url是与OpenAI兼容的API端点(有关详细信息,请参阅OpenAI API协议文档)。


三、开发

只需简单的两个步骤即可运行应用程序:

pnpm install
pnpm run dev

注意:在MacOS上,您需要授予用于运行命令的应用程序(例如iTerm2、终端)的权限。


测试

# Unit test
pnpm run test
# E2E test
pnpm run test:e2e

系统要求

  • Node.js >= 20
  • 支持的操作系统
    • Windows 10/11
    • macOS 10.15+

2025-02-03(一)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值