Towards Robust Visual Information Extraction in Real World论文分享稿

最新推荐文章于 2023-08-14 11:18:22 发布

Tyyy`

最新推荐文章于 2023-08-14 11:18:22 发布

阅读量538

点赞数

分类专栏：论文文章标签：自然语言处理深度学习

本文链接：https://blog.csdn.net/soulesstitan/article/details/114981462

版权

简介

这篇文章提出了一个SOTA的端到端信息提取方法和一个中文信息提取的数据集。
视觉关键信息提取的方法可以分为两种：端到端和非端到端。非端到端的做法是将这个任务分为三个（两个）子任务，分别进行训练，之后再进行级联。三个模块分别为文本检测和识别（检测和识别的端到端），关键信息提取模块。关键信息提取模块的话可以分为以下几类：纯文本来做信息提取，纯文本加上位置信息（Post-OCR parsing）和纯文本加上位置信息、视觉信息(LayoutLM,PICK)。端到端有两种做法，一种是三个模块连接在一起进行一起训练（TRIE），第二种则是直接对图片进行特征提取和解码（EATEN）直接获得最后的关键信息。这篇文章的方法也是基于三个模块结合在一起进行训练，与TRIE较为相似。
视觉信息提取的数据集常用的是SROIE，ICADR2019上提出的数据集。这是一个纯英文的数据集，图片都是扫描的小票。内容都是打印的，类别只有4种。作者提出了个中文的数据集EPHOIE，相较于英文的数据集，它的关键信息种类更多，类别除了打印还有手写体。

网络框架

整个网络分为三个分支，文本检测，识别和信息提取。文本检测和识别模块不仅仅是定位和转写文本，还有为之后的信息提取提供视觉和语义特征。
识别和检测使用的特征图是共享的，检测的方法基于mask rcnn。检测出文本框的位置之后，使用roipooling获得特征之后，送入检测头进行检测。检测的区域通过VCM获得视觉特征，这些视觉特征包含了形状，字体，颜色等等内容，之后会送入信息提取。信息提取分支

最低0.47元/天解锁文章

Tyyy`

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Towards Robust Visual Information Extraction in Real World论文分享稿

简介这篇文章提出了一个SOTA的端到端信息提取方法和一个中文信息提取的数据集。视觉关键信息提取的方法可以分为两种：端到端和非端到端。非端到端的做法是将这个任务分为三个（两个）子任务，分别进行训练，之后再进行级联。三个模块分别为文本检测和识别（检测和识别的端到端），关键信息提取模块。关键信息提取模块的话可以分为以下几类：纯文本来做信息提取，纯文本加上位置信息（Post-OCR parsing）和纯文本加上位置信息、视觉信息(LayoutLM,PICK)。端到端有两种做法，一种是三个模块连接在一起进
复制链接

扫一扫