Towards Robust Visual Information Extraction in Real World论文分享稿

简介

  这篇文章提出了一个SOTA的端到端信息提取方法和一个中文信息提取的数据集。
  视觉关键信息提取的方法可以分为两种:端到端和非端到端。非端到端的做法是将这个任务分为三个(两个)子任务,分别进行训练,之后再进行级联。三个模块分别为文本检测和识别(检测和识别的端到端),关键信息提取模块。关键信息提取模块的话可以分为以下几类:纯文本来做信息提取,纯文本加上位置信息(Post-OCR parsing)和纯文本加上位置信息、视觉信息(LayoutLM,PICK)。端到端有两种做法,一种是三个模块连接在一起进行一起训练(TRIE), 第二种则是直接对图片进行特征提取和解码(EATEN)直接获得最后的关键信息。这篇文章的方法也是基于三个模块结合在一起进行训练,与TRIE较为相似。
  视觉信息提取的数据集常用的是SROIE,ICADR2019上提出的数据集。这是一个纯英文的数据集,图片都是扫描的小票。内容都是打印的,类别只有4种。作者提出了个中文的数据集EPHOIE,相较于英文的数据集,它的关键信息种类更多,类别除了打印还有手写体。

网络框架

  整个网络分为三个分支,文本检测,识别和信息提取。文本检测和识别模块不仅仅是定位和转写文本,还有为之后的信息提取提供视觉和语义特征。
  识别和检测使用的特征图是共享的,检测的方法基于mask rcnn。检测出文本框的位置之后,使用roipooling获得特征之后,送入检测头进行检测。检测的区域通过VCM获得视觉特征,这些视觉特征包含了形状,字体,颜色等等内容,之后会送入信息提取。信息提取分支

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值