Cradle:替代人手的惊艳框架!!【送源码】

Cradle,一款全新的框架,使大模型可以通过人类平时浏览的操作界面,执行复杂的计算机任务。

还记不记得,前些日子微软展示的,基于GPT-4o,让Copilot实时为你提供游戏操作建议?例如当你进行到游戏的某个步骤的时候,Copilot会建议你该做什么,并且给你提供相应的教程。

图片

而 Cradle 以屏幕截图作为输入,以键盘和鼠标操作作为输出。这意味着什么?Cradle甚至能代替人工操作者,直接根据实时的截图,像人一样进行鼠标和键盘的操作!

Cradle 的框架实现大致分为以下几个步骤:

  • 信息收集:Cradle 从视频片段中提取所有有用的视觉和文本信息(包括布局、图像、动画和UI元素等),以便理解当前情况并进行进一步推理。同时,通过OCR技术提取图像中的文本信息,包括内容(标题和段落)、导航标签(菜单和链接)、通知和指示等。

  • 技能和动作生成:Cradle 利用LMM生成代码函数作为语义级别的技能,这些技能封装了较低级别的键盘和鼠标控制,将LMM生成的语义动作与操作系统级别的可执行动作连接起来。类似于人类在游戏中的逐步提高,这些技能可以根据游戏教程、指南、游戏手册和设置获得,也可以是自我成长。这些技能也可以预定义或组合以解决更复杂的任务。

  • 动作执行:在Cradle生成动作并决定在环境中执行后,将触发执行器将这些语义动作映射为操作系统级别的键盘和鼠标命令,以与环境进行交互。

图片

目前 Cradle 已经可以在应用和游戏领域取得非常优秀的表现。CRADLE不仅能够操作日常软件,如Chrome、Outlook和飞书,还能够使用美图和剪映进行图片和视频编辑。

在游戏方面,Cradle 史无前例地跟随《荒野大镖客2》的主线剧情游玩了40分钟,在《都市:天际线》中创建一个拥有千人的城市,在《星露谷物语》中种植和收获防风草,甚至在《当铺人生2》中能够进行交易和议价,在一周内实现87%的最大化总利润!

图片

想象一下,当你找不到小伙伴和你一起联机游玩《星露谷物语》时,你可以找到 Cradle 帮你打理你的农场。或者下一次打开直播间,标题挂着的可能就是“AI独立通关xxx游戏”了。Cradle 展现出的能力十分惊叹,期待这个项目后续的发展。

项目地址:

https://github.com/baai-agents/cradle

 ——EOF——

福利:

扫码回复【酒店】可免费领取酒店管理系统源码

  • 6
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值