Pix2Struct
总览
题目: Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding
机构:谷歌
论文: https://arxiv.org/pdf/2210.03347.pdf
代码: https://github.com/google-research/pix2struct
任务:
特点:
方法:
前置相关工作:
摘要
视觉定位的语言(Visually-situated language)无处不在:从带有图表的教科书到带有图片和表格的网页,再到带有按钮和表格的移动应用程序。也许由于这种多样性,以往的研究通常依赖于特定领域的方法,但这些方法在底层数据、模型架构和目标上的共享有限。我们提出了Pix2Struct,一个预训练的图像到文本模型,专门用于纯视觉语言理解,可以在包含视觉定位语言的任务上进行微调。Pix2Struct通过学习解析Web页面的掩码&#x