web agent 学习 3：screen ai

李小星同志

已于 2024-05-15 16:09:22 修改

阅读量238

点赞数 2

文章标签：学习

于 2024-05-14 17:34:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LI_XIAO_XING/article/details/138863010

版权

学习论文：ScreenAI: A Vision-Language Model for UI and Infographics Understanding

摘要部分介绍了作者的screenai，是一个专门用于UI和信息图形理解的视觉语言模型。模型利用pix2struct灵活的补丁策略改进了PaLI架构，并在独特的数据集混合上进行了训练。

他的主要任务是屏幕注释（识别UI的类别，位置），用这些注释交给大语言模型，并自动生成问答（QA）、UI导航和摘要训练数据集。最后还做了消融实验。

主要贡献如下：

我们提出ScreenAI，一种视觉语言模型（VLM），作为一种整体解决方案，专注于理解UI和信息图形，利用其常见的视觉语言和设计复杂性。
•我们介绍了UI的文本表示，用于教我们的模型如何在预训练阶段理解UI。
•我们利用这种新的UI表示和大型语言模型（LLM）自动大规模生成训练数据。
•我们定义了预训练和微调混合物，涵盖了UI和信息图理解中的广泛任务。
•我们为第4.2节中描述的任务发布了三个评估数据集：Screen Annotation、ScreenQA Short和Complex ScreenQA。这些数据集使研究界能够利用我们的文本表示和al low对基于屏幕的问答模型进行更全面的基准测试。

模型结构如图：

可以看到，这里的图像和文字是一起embed，一起自注意力的，因为他们都是输入。记住decoder那边永远只会有字典，不会有正儿八经的输入数据走那边的。

接下里是重量级：数据集怎么做的。

首先作者收集了大量的截图，然后给他们做注释。注释就是给图像上的各个元素加上框框，同时解释一下是什么东西。这个其实就是一个分类任务，有现成的模型可以用。

接下来，在大语言模型的帮助下，可以生成更高级的任务，例如QA……

最后得到的数据集：

最后我们使用这个数据集训练模型，训练项目其实也就是注释，QA,Navigation（就是叫他‘返回’，他会知道要按哪个按钮），总结。

这样，在注释模型，常规多模态大语言模型的帮助下，我们做出了一个注重UI交互的数据集，并在此基础上训练出了一个重视理解UI能力的多模态大语言模型。

最后就是实验和收集数据。学习结束。

李小星同志

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
web agent 学习 3：screen ai

摘要部分介绍了作者的screenai，是一个专门用于UI和信息图形理解的视觉语言模型。模型利用pix2struct灵活的补丁策略改进了PaLI架构，并在独特的数据集混合上进行了训练。学习论文：ScreenAI: A Vision-Language Model for UI and Infographics Understanding。他的主要任务是屏幕注释（识别UI的类别，位置），用这些注释交给大语言模型，并自动生成问答（QA）、UI导航和摘要训练数据集。最后还做了消融实验。
复制链接

扫一扫

李小星同志

博客等级

码龄3年

178
原创

295
点赞

1502
收藏

487
粉丝

关注

私信

热门文章

分类专栏

最新评论

计算机组成原理：原，反，补码，加减运算，溢出判断，符号扩展
做而论道_CS: 变形补码、双符号位！一直也没有听说，谁家的 CPU 有这种配置。 Intel 的 CPU 中，有一个溢出标志位 OF。它可以自动判别并给出：运算是否溢出！已经有这个现成的标志，还研究 “双符号位” 干嘛？－－－－－－－－－－－－任何一个数，无论是一个字节，或是一个字，都只有一个符号位。是在计算的时候，多弄一个符号位吗？　16 位的 CPU，用 17 位来计算？　32 位的 CPU，用 33 位来计算？什么品牌型号的 CPU，有这种功能啊！从来就没有听说过。双符号位、变形补码，只是某些老师的梦呓而已。不能当真的。
计算机组成原理：原，反，补码，加减运算，溢出判断，符号扩展
做而论道_CS: 另外，计算机行业有个翻番的摩尔定律。现在的计算机，比 8086，都不知翻多少番了！现在的计算机中，已经不是 “只有加法器” 了做运算，现在用的是 ALU (算术逻辑单元)。在 ALU 的功能中，已经有了减法运算！那么，想要相减，直接相减就可以了。计算机专业的老师，对此视而不见！仍然喋喋不休的讲 “取反加一”。为什么呢？居心叵测呀！现在终于知道我们缺芯片用的原因了。
计算机组成原理：原，反，补码，加减运算，溢出判断，符号扩展
做而论道_CS: 实际上，计算机只有二进制数。并没有什么符号位原码反码补码。二进制数，也是数，和十进制数，是雷同的。－－－－－－－－－－－－－－－－－－－－－如果使用数字，代表其它信息，才叫做 “码”。如：学号、门牌车牌电话性别书号密码等等。－－－－－－－－－－－－－－－－－－－－－所谓的 “补码”，实际上，它就是一个正数。正数，能当负数用吗？能！关键在于：【舍弃进位】！你看十进制数，两位，范围是：0 ~ 99。那么：38 + 99 = (一百) 37 　　　38 － 1 = 37 舍弃进位，这两种算法，功能就是相同的。　正数，就能当负数来用！　加法，就成了减法！在计算机中，利用此思路，减法器，就省掉了！八位二进制，范围是：0000 0000 ~ 1111 1111。相当于十进制的：0 ~ 255。如果舍弃进位，255 (即 1111 1111)，就能当－1 来使用。你用二进制加法，算一下，便可证明出来。同理，254 (即 1111 1110)，就是－2 了。继续，253 (即 1111 1101)，就是－3 了。。。。这些正数，就被计算机专家称之为：补码。实际上，它们仍然还是数！称为 “码”，是因为，计算机专家不懂算术。由 255 (即 1111 1111) 能当－1，可知：　负数的补码＝ 256 ＋该负数。例题：－50 的补码是什么？求解： 256 ＋ (－50) ＝ 206，　　　 206 = 1100 1110 (二进制)。求补码，就是这么简单！所谓的：　机器数真值符号位原码反码补码正数三码相同　负数取反加一符号位不变模同余符号位也参加运算 ,,, 都是毫无用处的垃圾！正数和零的补码，也可以用这个公式，即：　正数的补码＝ 256 ＋该正数。加上 256，就出现了进位。把进位舍弃掉，就是：　正数的补码＝ 256 ＋该正数　　　　　　＝该正数。这就证明了：正数和零的补码，就是其本身。
数理逻辑 2
csy031117: 是 hitsz 的学长吗？😊
数字逻辑：卡诺图详解
Avon: 建议把卡诺图化简逻辑表达式那里写清楚一点

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。