在刚结束的苹果全球开发者大会WWAC上,Apple家族AI全家桶 「Apple Intelligence」亮相,库克宣布个人智能系统将应用于新版本的 iPhone、iPad 和 Mac 操作系统。未来,新Siri将脱胎换骨,在Apple Intelligence的系统支撑下,拥有更丰富的语言理解能力、更灵活地日常任务处理能力。结合屏幕感知功能,新Siri可以让用户轻松执行与屏幕上的信息相关操作,比如把聊天信息中收到的地址自动添加到朋友的通讯录里。由此,Siri 可以在应用程序中或跨应用程序执行数百项新操作,此次更新依赖于苹果今年四月份低调发布的一项工作——多模态大语言模型(MLLM) Ferret-UI,针对移动用户界面(UI)屏幕的理解进行优化,其具备引用、定位和推理能力。
类似的工作,在今年二月份,由阿里通义实验室提出的手机端智能体开源框架Mobile-Agent,即可实现一句指令输入,AI可以作为智能中枢,根据指令在手机上自动规划和操作各种APP。
Mobile-Agent凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内,已在Github获得了2,000个Star。该系统采用纯视觉方案,通过视觉感知工具和操作工具完成智能体在手机上的操作,无需依赖任何系统级别的UI文件。得益于这种智能体中枢模型的强大,Mobile-Agent实现了即插即用,无需进行额外的训练和探