OCR-VQA论文分享

OCR-VQA: Visual Question Answering by Reading Text in Images
ICDAR 2019
论文地址

OCR-VQA数据集

前不久看了一个2020年文档图像分析与识别前沿理论与应用研讨会的视频,金老师在展望中提到了OCR和NLP结合的新的研究方向Text VQA,还说了如果只是把文档中的字识别出来是没什么用的,更重要的是从中发现有意义的东西(需要理解文本)。感觉这个是个很有意思并且有意义的问题,于是最近准备看几篇这个方面的文章。
在这里插入图片描述
简介

摘要
回答关于图像的问题通常被称为视觉问答(简称VQA)。这是计算机视觉中一个公认的问题。然而,目前没有一种VQA方法利用图像中经常出现的文本。这些“图像中的文本”提供了额外的有用线索,有助于更好地理解视觉内容。在这篇文章中,我们介绍了一个新的任务,通过OCR阅读图像中文本的视觉问答任务。我们把这个问题称为OCR-VOA。为了便于系统地研究这个新问题,我们引入了一个大规模数据集,即OCR-
VQA-200K。该数据集由207572张书籍封面图片组成,包含超过100万对关于这些图片的问答。我们结合了OCR和VQA领域的技术,提出了一个新的baseline。实验结果和严格的分析证明了该数据集中存在的各种挑战,为未来的研究留下了的空间。我们乐观地认为,这一新任务以及数据集将为文档图像分析和VQA开辟许多研究领域。

VQA(Visual Question Answering)是指计算机需要根据图片和问题,给出答案。OCR/Text VQA和它相似,但是图像中会有很多文本,问题和答案都是和图中的文本相关。比如说,问下面这张图中,书的标题或者作者是什么,计算机需要提取并理解图中的文本信息,给出答案。
在这里插入图片描述
创新点

  • 公布了一个207572张书籍封面图片的数据集
  • 结合OCR和VQA技术提出了baseline方法

Method

  1. OCR- VQA-200K数据集

数据集包含207572张书籍封面图片(下图)和1002146个问题对,平均一幅图对应5个问题。问题是关于书籍标题,作者名字,书籍类型,年份,版本,是否和宗教相关。
在这里插入图片描述
在这里插入图片描述
2.baseline方法

输入当然是图像和问题。

模型中用文本检测模型在图像中定位文本,文中表示只使用检测结果中最大的五个文本块。

用文本识别模型识别所有字,用所有单词word2vec(图中W2V)词向量的平均值作为文本特征(图中浅蓝色部分)。

对识别出的字进行命名实体识别(NER),可以额外提供姓名、年份的信息。文本块的NER结果,索引和坐标加在一起表示为图中深蓝色部分35维的向量。

由于图像中文本外的其他信息会对回答问题有帮助,文中用VGG-16编码全图信息(图中绿色部分)。

最后,问题用BiLSTM编码,得到的300维向量(图中黄色部分)和从图像中得到的所有特征拼接起来,输入进两层全连接层,得到预测结果。

在这里插入图片描述
模型输出为51维向量,分别是5个文本检测结果的索引、32种书籍类型、是或否、书籍版本(5种,1-5版)、年份(7种,2010-2016年)。向量中数值最大的就是预测结果。

Experiments

baseline方法的只是简单地将各种特征拼接起来输入全连接层,目前的准确率还是比较低(48.3%),未来还有很大的提升空间。目前的baseline的模型很庞大,需要有文本检测和识别模型,这两部分未来是否可以省略掉?另外感觉得到所有特征之后还需要有更好的处理。
在这里插入图片描述
作者还统计了模型回答不同类型问题的正确率,关于书籍类型的问题准确率最低(22%),yes/no的问题准确率最高(58.2%)。
在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
OCR-VQA(Optical Character Recognition - Visual Question Answering)数据集评估指标可以根据任务的性质和目标进行选择。以下是一些常用的评估指标: 1. 准确率(Accuracy):在OCR-VQA任务中,最常用的评估指标是准确率。它衡量模型回答问题的正确率。如果模型给出的答案与人工标注的答案完全匹配,则计为1,否则计为0。最终的准确率是所有样本的平均值。 2. Top-k Accuracy:为了考虑到可能存在多个正确答案的情况,可以使用Top-k准确率。在Top-k准确率中,将模型预测的答案与人工标注的答案进行比较,只要模型预测的答案在标注答案的前k个里面,就认为是正确的。Top-k准确率可以更全面地评估模型的性能。 3. 结果排序(Ranking):在OCR-VQA任务中,还可以使用排序评估指标,例如Mean Rank和Median Rank。这些指标衡量模型在给定问题下对所有可能答案的排序性能。较好的模型应该能够将正确答案排在前面。 4. 分布式评估(Distributional Evaluation):除了对单个样本的准确性进行评估,还可以考虑模型对整个标注答案分布的拟合程度。例如,模型的预测分布应与人工标注的分布相似,可以使用KL散度或交叉熵等指标进行评估。 这些指标可以根据具体的OCR-VQA任务和评估需求进行选择和组合。同时,还可以根据任务的特点,设计和使用更加适合的评估指标。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值