screenAgent开源数据集学习

李小星同志

于 2024-07-30 15:41:41 发布

阅读量313

点赞数 2

文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LI_XIAO_XING/article/details/140798241

版权

大体流程是这样：首先会给模型一个任务要求，然后模型会给出执行步骤（也就是cot），然后把当前的截图和子任务发给模型，模型判断这一步要做什么（点击哪里之类的）然后会对是否成功做一个判断。子任务成功后就进入下一个子任务。

数据集包含两种信息：截图和json文件。截图相当于我们的benchmark的轨迹截图，但这个截图是包含了模型做出错误动作之后的截图的。json文件包含了prompt，当前任务，LLM给出的回答，执行的具体操作之类的信息。

json文件中每个字段的含义：

session_id：Session ID
task_prompt：任务总体的目标
task_prompt_en：任务总体的目标（En）
task_prompt_zh：任务总体的目标（Zh）
send_prompt：发送给模型的完整提示词
send_prompt_en：发送给模型的完整提示词（En）
send_prompt_zh：发送给模型的完整提示词（Zh）
LLM_response：模型给出的原始回复文本，即RLHF中的 reject response
LLM_response_editer：人工修正后的回复文本，即RLHF中的 choice response
LLM_response_editer_en：人工修正后的回复文本（En）
LLM_response_editer_zh：人工修正后的回复文本（Zh）
video_height，video_width：图像的高度和宽度
saved_image_name：截图文件名，在每个session的images文件夹下
actions：从 LLM_response_editer 中解析出的动作序列

screenAgent这个项目主要其实是设计了一个流程，这个工作可以交给各种各样的多模态模型。

为了引导 VLM Agent 与计算机屏幕进行持续的交互，我们构建了一个包含“计划-执行-反思”的运行流程。在计划阶段，Agent 被要求将用户任务拆解为子任务。在执行阶段，Agent 将观察屏幕截图，给出执行子任务的具体鼠标和键盘动作。控制器将执行这些动作，并将执行结果反馈给 Agent。在反思阶段，Agent 将观察执行结果，并判定当前的状态，选择继续执行、重试或调整计划。这一流程将持续进行，直到任务完成。

李小星同志

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
screenAgent开源数据集学习

在计划阶段，Agent 被要求将用户任务拆解为子任务。在执行阶段，Agent 将观察屏幕截图，给出执行子任务的具体鼠标和键盘动作。截图相当于我们的benchmark的轨迹截图，但这个截图是包含了模型做出错误动作之后的截图的。json文件包含了prompt，当前任务，LLM给出的回答，执行的具体操作之类的信息。大体流程是这样：首先会给模型一个任务要求，然后模型会给出执行步骤（也就是cot），然后把当前的截图和子任务发给模型，模型判断这一步要做什么（点击哪里之类的）然后会对是否成功做一个判断。
复制链接

扫一扫

李小星同志 CSDN认证博客专家 CSDN认证企业博客

码龄4年

193: 原创

1万+: 周排名

1万+: 总排名

26万+: 访问

: 等级

2408: 积分

536: 粉丝

376: 获赞

26: 评论

1596: 收藏

私信

关注

热门文章

分类专栏

最新评论

计算机组成原理：原码的乘法运算
zhi21yuan15: 谢谢,解决了疑惑。
计算机组成原理：原，反，补码，加减运算，溢出判断，符号扩展
做而论道_CS: 变形补码、双符号位！一直也没有听说，谁家的 CPU 有这种配置。 Intel 的 CPU 中，有一个溢出标志位 OF。它可以自动判别并给出：运算是否溢出！已经有这个现成的标志，还研究 “双符号位” 干嘛？－－－－－－－－－－－－任何一个数，无论是一个字节，或是一个字，都只有一个符号位。是在计算的时候，多弄一个符号位吗？　16 位的 CPU，用 17 位来计算？　32 位的 CPU，用 33 位来计算？什么品牌型号的 CPU，有这种功能啊！从来就没有听说过。双符号位、变形补码，只是某些老师的梦呓而已。不能当真的。
计算机组成原理：原，反，补码，加减运算，溢出判断，符号扩展
做而论道_CS: 另外，计算机行业有个翻番的摩尔定律。现在的计算机，比 8086，都不知翻多少番了！现在的计算机中，已经不是 “只有加法器” 了做运算，现在用的是 ALU (算术逻辑单元)。在 ALU 的功能中，已经有了减法运算！那么，想要相减，直接相减就可以了。计算机专业的老师，对此视而不见！仍然喋喋不休的讲 “取反加一”。为什么呢？居心叵测呀！现在终于知道我们缺芯片用的原因了。
计算机组成原理：原，反，补码，加减运算，溢出判断，符号扩展
做而论道_CS: 实际上，计算机只有二进制数。并没有什么符号位原码反码补码。二进制数，也是数，和十进制数，是雷同的。－－－－－－－－－－－－－－－－－－－－－如果使用数字，代表其它信息，才叫做 “码”。如：学号、门牌车牌电话性别书号密码等等。－－－－－－－－－－－－－－－－－－－－－所谓的 “补码”，实际上，它就是一个正数。正数，能当负数用吗？能！关键在于：【舍弃进位】！你看十进制数，两位，范围是：0 ~ 99。那么：38 + 99 = (一百) 37 　　　38 － 1 = 37 舍弃进位，这两种算法，功能就是相同的。　正数，就能当负数来用！　加法，就成了减法！在计算机中，利用此思路，减法器，就省掉了！八位二进制，范围是：0000 0000 ~ 1111 1111。相当于十进制的：0 ~ 255。如果舍弃进位，255 (即 1111 1111)，就能当－1 来使用。你用二进制加法，算一下，便可证明出来。同理，254 (即 1111 1110)，就是－2 了。继续，253 (即 1111 1101)，就是－3 了。。。。这些正数，就被计算机专家称之为：补码。实际上，它们仍然还是数！称为 “码”，是因为，计算机专家不懂算术。由 255 (即 1111 1111) 能当－1，可知：　负数的补码＝ 256 ＋该负数。例题：－50 的补码是什么？求解： 256 ＋ (－50) ＝ 206，　　　 206 = 1100 1110 (二进制)。求补码，就是这么简单！所谓的：　机器数真值符号位原码反码补码正数三码相同　负数取反加一符号位不变模同余符号位也参加运算 ,,, 都是毫无用处的垃圾！正数和零的补码，也可以用这个公式，即：　正数的补码＝ 256 ＋该正数。加上 256，就出现了进位。把进位舍弃掉，就是：　正数的补码＝ 256 ＋该正数　　　　　　＝该正数。这就证明了：正数和零的补码，就是其本身。
数理逻辑 2
csy031117: 是 hitsz 的学长吗？😊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。