OCR-VQA论文分享

OCR-VQA: Visual Question Answering by Reading Text in Images
ICDAR 2019
论文地址

OCR-VQA数据集

前不久看了一个2020年文档图像分析与识别前沿理论与应用研讨会的视频,金老师在展望中提到了OCR和NLP结合的新的研究方向Text VQA,还说了如果只是把文档中的字识别出来是没什么用的,更重要的是从中发现有意义的东西(需要理解文本)。感觉这个是个很有意思并且有意义的问题,于是最近准备看几篇这个方面的文章。
在这里插入图片描述
简介

摘要
回答关于图像的问题通常被称为视觉问答(简称VQA)。这是计算机视觉中一个公认的问题。然而,目前没有一种VQA方法利用图像中经常出现的文本。这些“图像中的文本”提供了额外的有用线索,有助于更好地理解视觉内容。在这篇文章中,我们介绍了一个新的任务,通过OCR阅读图像中文本的视觉问答任务。我们把这个问题称为OCR-VOA。为了便于系统地研究这个新问题,我们引入了一个大规模数据集,即OCR-
VQA-200K。该数据集由207572张书籍封面图片组成,包含超过100万对关于这些图片的问答。我们结合了OCR和VQA领域的技术,提出了一个新的baseline。实验结果和严格的分析证明了该数据集中存在的各种挑战,为未来的研究留下了的空间。我们乐观地认为,这一新任务以及数据集将为文档图像分析和VQA开辟许多研究领域。

VQA(Visual Question Answering)是指计算机需要根据图片和问题,给出答案。OCR/Text VQA和它相似,但是图像中会有很多文本,问题和答案都是和图中的文本相关。比如说,问下面这张图中,书的标题或者作者是什么,计算机需要提取并理解图中的文本信息,给出答案。
在这里插入图片描述
创新点

  • 公布了一个207572张书籍封面图片的数据集
  • 结合OCR和VQA技术提出了baseline方法

Method

  1. OCR- VQA-200K数据集

数据集包含207572张书籍封面图片(下图)和1002146个问题对,平均一幅图对应5个问题。问题是关于书籍标题,作者名字,书籍类型,年份,版本,是否和宗教相关。
在这里插入图片描述
在这里插入图片描述
2.baseline方法

输入当然是图像和问题。

模型中用文本检测模型在图像中定位文本,文中表示只使用检测结果中最大的五个文本块。

用文本识别模型识别所有字,用所有单词word2vec(图中W2V)词向量的平均值作为文本特征(图中浅蓝色部分)。

对识别出的字进行命名实体识别(NER),可以额外提供姓名、年份的信息。文本块的NER结果,索引和坐标加在一起表示为图中深蓝色部分35维的向量。

由于图像中文本外的其他信息会对回答问题有帮助,文中用VGG-16编码全图信息(图中绿色部分)。

最后,问题用BiLSTM编码,得到的300维向量(图中黄色部分)和从图像中得到的所有特征拼接起来,输入进两层全连接层,得到预测结果。

在这里插入图片描述
模型输出为51维向量,分别是5个文本检测结果的索引、32种书籍类型、是或否、书籍版本(5种,1-5版)、年份(7种,2010-2016年)。向量中数值最大的就是预测结果。

Experiments

baseline方法的只是简单地将各种特征拼接起来输入全连接层,目前的准确率还是比较低(48.3%),未来还有很大的提升空间。目前的baseline的模型很庞大,需要有文本检测和识别模型,这两部分未来是否可以省略掉?另外感觉得到所有特征之后还需要有更好的处理。
在这里插入图片描述
作者还统计了模型回答不同类型问题的正确率,关于书籍类型的问题准确率最低(22%),yes/no的问题准确率最高(58.2%)。
在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值