【笔记】Reading Order Equivariant Positional Encoding for Graph-based Document Information Extraction

【笔记】Reading Order Equivariant Positional Encoding for Graph-based Document Information Extraction

一、简单概括

本文提出了读序等变位置编码Reading Order Equivariant Positional Encoding)(ROPE),一种新的位置编码技术,旨在理解文档中单词的顺序表示。

ROPE为给定单词级图连接的相邻单词相对于目标单词生成唯一的阅读顺序编码

在这项工作中,我们提出了一种简单而有效的读序等变位置编码(ROPE),它将相对读序上下文嵌入到图中,弥合序列和图模型之间的差距,以实现稳健的文档理解。具体来说,对于构造图中的每个单词,ROPE都会根据图的连通性为其相邻单词生成唯一的阅读顺序代码。然后将代码输入具有自注意聚合函数的GCN(Graph Convolutional Networks—图卷积网络),以实现有效的相对读取顺序编码。

ROPE是在GCNs上的改进,弥补了GCNs图聚合操作时,特定的单词排序信息丢失问题。

二、方法:

我们遵循使用GCNs进行文档信息提取的最新进展,通过序列建模放松任何序列化假设。GCNs接受任意数字、大小、形状和位置的输入(本例中的单词标记),并通过直接消息传递和输入嵌入到二维空间之间的梯度更新,对文档的底层空间布局模式进行编码。

2.1 图的节点定义

节点定义:给定一个有N个标记由 T = { t 1 , t 2 , . . . , t N } T=\{t_1,t_2,...,t_N\} T={ t1,t2,...,tN}表示的文档D, t i t_i ti是引用光学字符识别(OCR)引擎返回的线性序列化文本序列中的第i个标记。OCR引擎生成所有标记的边界框(bounding box)的大小和位置,以及每个box内的文本。所有标记 T T T节点输入表示定义为顶点

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值