视觉信息提取（VIE）：GeoLayoutLM: Geometric Pre-training for Visual Information Extraction

最新推荐文章于 2024-05-09 09:53:22 发布

小P学长

最新推荐文章于 2024-05-09 09:53:22 发布

阅读量699

点赞数

分类专栏：小P学长编程分享文章标签：人工智能机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_77854234/article/details/131351185

版权

小P学长编程分享专栏收录该内容

116 篇文章 20 订阅

订阅专栏

深度学习源码入门见专栏置顶～

论文作者：Chuwei Luo,Changxu Cheng,Qi Zheng,Cong Yao

作者单位：DAMO Academy; Alibaba Group

论文链接：http://arxiv.org/abs/2304.10759v1

项目链接：https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayoutLM

内容简介：

1）方向：文档智能

2）应用：视觉信息提取（VIE）

3）背景：VIE通常分为两个任务：语义实体识别（SER）和关系提取（RE）。现有的预训练模型在SER方面取得了显著进展，但是对于RE任务来说，几何信息尤为重要，而现有模型隐式地学习几何表示，效果不佳。此外，预训练阶段和微调阶段之间的目标差距也限制了RE的性能。

4）方法：提出了一种名为GeoLayoutLM的多模态框架，用于VIE。GeoLayoutLM通过三个特别设计的几何相关预训练任务实现几何预训练，并在微调阶段使用新颖的关系头进行RE。这些关系头通过几何预训练任务进行预训练，并精心设计以丰富和增强特征表示。

5）结果：在标准VIE基准测试上，GeoLayoutLM在SER任务中取得了极具竞争力的分数，并且在RE方面显著优于以前的最新技术（例如，在FUNSD上的RE F1分数从80.35％提高到89.45％）。代码和模型可在https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayoutLM上公开获取。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
视觉信息提取（VIE）：GeoLayoutLM: Geometric Pre-training for Visual Information Extraction

3）背景：VIE通常分为两个任务：语义实体识别（SER）和关系提取（RE）。现有的预训练模型在SER方面取得了显著进展，但是对于RE任务来说，几何信息尤为重要，而现有模型隐式地学习几何表示，效果不佳。4）方法：提出了一种名为GeoLayoutLM的多模态框架，用于VIE。5）结果：在标准VIE基准测试上，GeoLayoutLM在SER任务中取得了极具竞争力的分数，并且在RE方面显著优于以前的最新技术（例如，在FUNSD上的RE F1分数从80.35％提高到89.45％）。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小P学长 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。