【笔记】Reading Order Equivariant Positional Encoding for Graph-based Document Information Extraction

最新推荐文章于 2024-05-29 21:59:21 发布

sun_yi_gui

最新推荐文章于 2024-05-29 21:59:21 发布

阅读量377

点赞数 1

分类专栏： NLP 笔记文章标签：语言模型 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sun_yi_gui/article/details/120971640

版权

【笔记】Reading Order Equivariant Positional Encoding for Graph-based Document Information Extraction

一、简单概括

本文提出了读序等变位置编码（Reading Order Equivariant Positional Encoding）(ROPE)，一种新的位置编码技术，旨在理解文档中单词的顺序表示。

ROPE为给定单词级图连接的相邻单词相对于目标单词生成唯一的阅读顺序编码。

在这项工作中，我们提出了一种简单而有效的读序等变位置编码(ROPE)，它将相对读序上下文嵌入到图中，弥合序列和图模型之间的差距，以实现稳健的文档理解。具体来说，对于构造图中的每个单词，ROPE都会根据图的连通性为其相邻单词生成唯一的阅读顺序代码。然后将代码输入具有自注意聚合函数的GCN（Graph Convolutional Networks—图卷积网络），以实现有效的相对读取顺序编码。

ROPE是在GCNs上的改进，弥补了GCNs图聚合操作时，特定的单词排序信息丢失问题。

二、方法：

我们遵循使用GCNs进行文档信息提取的最新进展，通过序列建模放松任何序列化假设。GCNs接受任意数字、大小、形状和位置的输入（本例中的单词标记），并通过直接消息传递和输入嵌入到二维空间之间的梯度更新，对文档的底层空间布局模式进行编码。

2.1 图的节点定义

节点定义：给定一个有N个标记由 $T=\{t_1,t_2,...,t_N\}$ 表示的文档D， $t_i$ 是引用光学字符识别（OCR）引擎返回的线性序列化文本序列中的第i个标记。OCR引擎生成所有标记的边界框（bounding box）的大小和位置,以及每个box内的文本。所有标记 $T$ 的节点输入表示定义为顶点

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【笔记】Reading Order Equivariant Positional Encoding for Graph-based Document Information Extraction

Reading Order Equivariant Positional Encoding for Graph-based Document Information Extraction一、简单概括本文提出了读序等变位置编码（Reading Order Equivariant Positional Encoding）(ROPE)，一种新的位置编码技术，旨在理解文档中单词的顺序表示。ROPE为给定单词级图连接的相邻单词相对于目标单词生成唯一的阅读顺序编码。在这项工作中，我们提出了一种简单而有效的读序等
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。