苹果公司推出MLLLM Ferret-UI,开创移动UI界面理解新纪元

2024年4月10日 — 苹果公司近日宣布推出一款名为Ferret-UI的机器学习语言模型(MLLM),旨在大幅提升对移动用户界面(UI)屏幕的理解能力。这一创新技术预示着iOS 18操作系统可能将带来前所未有的交互体验,用户或将能够通过Siri实现对应用界面的自动操作。

  1. Ferret-UI模型:移动UI理解的新突破

Ferret-UI模型是专为移动UI屏幕设计的MLLM,它不仅具备引用、定位和推理能力,还能够处理UI屏幕上的各种复杂任务。该模型的关键创新之一是其独特的“任何分辨率”技术,该技术通过放大细节来解决小型对象的识别问题,显著提高了模型对UI元素的理解精度。

  1. UI屏幕理解的挑战与解决方案

与传统的自然图像相比,UI屏幕通常具有更多的长宽比和更小的元素,这对模型的识别能力提出了更高要求。Ferret-UI模型通过采用“任何分辨率”技术,将屏幕分割成基于原始宽高比的子图像,并对每个子图像进行单独编码,从而在不丢失重要视觉信号的情况下放大细节,实现了对小型对象的准确识别。

  1. 训练样本的收集与任务制定

为了训练Ferret-UI模型,苹果公司收集了从基础到高级的广泛数据样本,并将其格式化为带有区域注释的指令遵循格式。此外,为了提升模型的推理能力,还特别编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。

  1. 模型架构与数据集的建立

Ferret-UI的架构基于在自然图像引用和定位任务中表现出色的Ferret模型。针对UI屏幕的特点,Ferret-UI进行了架构调整,包括集成“任何分辨率”技术和使用预定义的网格配置来划分全图图像。同时,为了全面评估模型的能力,苹果公司还建立了一个包含所有研究任务的综合测试基准。

  1. 高级任务中的对话能力

Ferret-UI在高级任务中的对话能力尤为突出,模型能够生成与视觉组件相关的详细讨论,并提出以特定目标为导向的行动计划。通过功能推断,Ferret-UI还能够解释屏幕的整体目的,显示出其在理解和生成自然语言指令方面的高级能力。

苹果公司此次推出的Ferret-UI模型,不仅为移动UI界面的理解带来了革命性的突破,也为未来的智能设备交互体验开辟了新的可能性。随着iOS 18操作系统的即将到来,我们有理由相信,Ferret-UI将为用户带来更加智能、便捷的操作体验,开启移动设备交互的新篇章。

  • 6
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
ferret是一个正在开发中的工具,它具有多种功能,包括cookie、快照截图、图片下载和代理等。目前的版本是v0.9.0,稳定版本即将发布。除了命令行形式外,ferret还可以嵌入到golang编码中,产生各种有趣的用法。\[1\] 要安装ferret,建议使用go1.13以上版本,并开启国内镜像代理。你还需要安装Chrome浏览器,并启动Chrome的CDP服务实例,使用无头模式。然后可以使用go get命令获取ferret的代码库。\[2\] 关于ferret和golang的具体用法,可以参考示例代码。示例中展示了一个使用ferret进行搜索的例子,通过指定参数wd来搜索"golang社区",并将结果保存到baidu.txt文件中。结果以JSON格式返回,包含了标题和描述信息。\[2\] 示例代码中还展示了一个简单的golang函数调用的例子,其中包含了panic异常的处理。这个例子展示了函数之间的调用关系和异常处理的过程。\[3\] 总之,ferret是一个正在开发中的工具,可以在golang中使用,具有多种功能。你可以通过安装ferret并参考示例代码来了解更多关于ferret和golang的用法。 #### 引用[.reference_title] - *1* *2* [ferret 爬取动态网页](https://blog.csdn.net/u011584949/article/details/103546463)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [Golang 学习笔记3:Go 并发与网络](https://blog.csdn.net/LUAOHAN/article/details/127151914)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

灿烂李

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值