【笔记】Reading Order Equivariant Positional Encoding for Graph-based Document Information Extraction
一、简单概括
本文提出了读序等变位置编码(Reading Order Equivariant Positional Encoding)(ROPE),一种新的位置编码技术,旨在理解文档中单词的顺序表示。
ROPE为给定单词级图连接的相邻单词相对于目标单词生成唯一的阅读顺序编码。
在这项工作中,我们提出了一种简单而有效的读序等变位置编码(ROPE),它将相对读序上下文嵌入到图中,弥合序列和图模型之间的差距,以实现稳健的文档理解。具体来说,对于构造图中的每个单词,ROPE都会根据图的连通性为其相邻单词生成唯一的阅读顺序代码。然后将代码输入具有自注意聚合函数的GCN(Graph Convolutional Networks—图卷积网络),以实现有效的相对读取顺序编码。
ROPE是在GCNs上的改进,弥补了GCNs图聚合操作时,特定的单词排序信息丢失问题。
二、方法:
我们遵循使用GCNs进行文档信息提取的最新进展,通过序列建模放松任何序列化假设。GCNs接受任意数字、大小、形状和位置的输入(本例中的单词标记),并通过直接消息传递和输入嵌入到二维空间之间的梯度更新,对文档的底层空间布局模式进行编码。
2.1 图的节点定义
节点定义:给定一个有N个标记由 T = { t 1 , t 2 , . . . , t N } T=\{t_1,t_2,...,t_N\} T={ t1,t2,...,tN}表示的文档D, t i t_i ti是引用光学字符识别(OCR)引擎返回的线性序列化文本序列中的第i个标记。OCR引擎生成所有标记的边界框(bounding box)的大小和位置,以及每个box内的文本。所有标记 T T T的节点输入表示定义为顶点