从PC到通用,聊聊PC-Agent、Manus、Owl、OpenManus ...

观看地址:观看地址:qingkelabs.github/io/talks

与手机相比,PC 场景的复杂性体现在两方面:

  • PC的图形界面包含了更密集多样的可交互元素,以及不同布局的文本;
  • PC常用于生产力场景,涉及更多复杂的App内及跨App工作流。

针对这一问题,来自阿里通义实验室的研究员们提出了面向复杂PC任务的多模态智能体框架 PC-Agent,可以根据用户指令实现对计算机软件(例如Chrome,Word,微信等)的自动控制。其主要包括:

  • 设计主动感知模块实现对屏幕内容的精细感知和操作;

  • 提出层次化多智能体协作结构;

  • 构建了涉及8个常用应用的复杂指令集以更好地评估智能体在复杂任务上的表现。

安装使用

  • 下载代码库
git clone https://github.com/X-PLUG/MobileAgent.git
  • 进入PC-Agent的文件目录下,安装运行PC-Agent的环境依赖
cd MobileAgent/PC-Agent/

# For MacOS
pip install -r requirements.txt
# For Windows
pip install -r requirements_win.txt
  • 运行PC-Agent
python run.py --instruction="Create a new doc on Word, write a brief introduction of Alibaba, and save the document." --api_token='Your GPT-4o API token.'

3月15日上午11点,青稞Talk 第41期,阿里通义实验室高级算法工程师张熙,将直播分享《PC-Agent:面向复杂 PL 任务的多模态智能体框架》。

分享嘉宾

张熙,博士毕业于中科院自动化研究所,目前担任阿里通义实验室高级算法工程师,负责多模态智能体Mobile-Agent等工作。在国际顶级期刊和会议TPAMI/TIP/CVPR/ACM MM/TMM/TCSVT等发表论文,曾获得CCL BEST Demo、China MM BEST Paper、VCIP BEST Student Paper、中科院院长奖等,担任多个顶级会议与期刊Reviewer,并在开源社区Github获得236k star。

主题提纲

PC-Agent:面向复杂 PL 任务的多模态智能体框架

1、PC 场景的复杂性
2、多模态智能体框架 PC-Agent
3、样例展示及应用实践
4、探讨-下:Manus/Owl/OpenManus …

直播时间

3月15日(周六) 11:00 -12:00

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值