观看地址:观看地址:qingkelabs.github/io/talks
与手机相比,PC 场景的复杂性体现在两方面:
- PC的图形界面包含了更密集多样的可交互元素,以及不同布局的文本;
- PC常用于生产力场景,涉及更多复杂的App内及跨App工作流。
针对这一问题,来自阿里通义实验室的研究员们提出了面向复杂PC任务的多模态智能体框架 PC-Agent,可以根据用户指令实现对计算机软件(例如Chrome,Word,微信等)的自动控制。其主要包括:
- 设计主动感知模块实现对屏幕内容的精细感知和操作;
- 提出层次化多智能体协作结构;
- 构建了涉及8个常用应用的复杂指令集以更好地评估智能体在复杂任务上的表现。
安装使用
- 下载代码库
git clone https://github.com/X-PLUG/MobileAgent.git
- 进入PC-Agent的文件目录下,安装运行PC-Agent的环境依赖
cd MobileAgent/PC-Agent/
# For MacOS
pip install -r requirements.txt
# For Windows
pip install -r requirements_win.txt
- 运行PC-Agent
python run.py --instruction="Create a new doc on Word, write a brief introduction of Alibaba, and save the document." --api_token='Your GPT-4o API token.'
3月15日上午11点,青稞Talk 第41期,阿里通义实验室高级算法工程师张熙,将直播分享《PC-Agent:面向复杂 PL 任务的多模态智能体框架》。
分享嘉宾
张熙,博士毕业于中科院自动化研究所,目前担任阿里通义实验室高级算法工程师,负责多模态智能体Mobile-Agent等工作。在国际顶级期刊和会议TPAMI/TIP/CVPR/ACM MM/TMM/TCSVT等发表论文,曾获得CCL BEST Demo、China MM BEST Paper、VCIP BEST Student Paper、中科院院长奖等,担任多个顶级会议与期刊Reviewer,并在开源社区Github获得236k star。
主题提纲
PC-Agent:面向复杂 PL 任务的多模态智能体框架
1、PC 场景的复杂性
2、多模态智能体框架 PC-Agent
3、样例展示及应用实践
4、探讨-下:Manus/Owl/OpenManus …
直播时间
3月15日(周六) 11:00 -12:00