OCR-VQA论文分享

最新推荐文章于 2024-08-14 17:18:04 发布

街道口扛把子

最新推荐文章于 2024-08-14 17:18:04 发布

阅读量897

点赞数 1

分类专栏：深度学习文章标签： ocr 人工智能深度学习

本文链接：https://blog.csdn.net/m0_38133212/article/details/110455735

版权

深度学习专栏收录该内容

23 篇文章 2 订阅

订阅专栏

OCR-VQA: Visual Question Answering by Reading Text in Images
ICDAR 2019
论文地址

OCR-VQA数据集

前不久看了一个2020年文档图像分析与识别前沿理论与应用研讨会的视频，金老师在展望中提到了OCR和NLP结合的新的研究方向Text VQA，还说了如果只是把文档中的字识别出来是没什么用的，更重要的是从中发现有意义的东西（需要理解文本）。感觉这个是个很有意思并且有意义的问题，于是最近准备看几篇这个方面的文章。
在这里插入图片描述
简介

摘要
回答关于图像的问题通常被称为视觉问答(简称VQA)。这是计算机视觉中一个公认的问题。然而，目前没有一种VQA方法利用图像中经常出现的文本。这些“图像中的文本”提供了额外的有用线索，有助于更好地理解视觉内容。在这篇文章中，我们介绍了一个新的任务，通过OCR阅读图像中文本的视觉问答任务。我们把这个问题称为OCR-VOA。为了便于系统地研究这个新问题，我们引入了一个大规模数据集，即OCR-
VQA-200K。该数据集由207572张书籍封面图片组成，包含超过100万对关于这些图片的问答。我们结合了OCR和VQA领域的技术，提出了一个新的baseline。实验结果和严格的分析证明了该数据集中存在的各种挑战，为未来的研究留下了的空间。我们乐观地认为，这一新任务以及数据集将为文档图像分析和VQA开辟许多研究领域。

VQA（Visual Question Answering）是指计算机需要根据图片和问题，给出答案。OCR/Text VQA和它相似，但是图像中会有很多文本，问题和答案都是和图中的文本相关。比如说，问下面这张图中，书的标题或者作者是什么，计算机需要提取并理解图中的文本信息，给出答案。
在这里插入图片描述
创新点

公布了一个207572张书籍封面图片的数据集
结合OCR和VQA技术提出了baseline方法

Method

OCR- VQA-200K数据集

数据集包含207572张书籍封面图片（下图）和1002146个问题对，平均一幅图对应5个问题。问题是关于书籍标题，作者名字，书籍类型，年份，版本，是否和宗教相关。
在这里插入图片描述

2.baseline方法

输入当然是图像和问题。

模型中用文本检测模型在图像中定位文本，文中表示只使用检测结果中最大的五个文本块。

用文本识别模型识别所有字，用所有单词word2vec（图中W2V）词向量的平均值作为文本特征（图中浅蓝色部分）。

对识别出的字进行命名实体识别（NER），可以额外提供姓名、年份的信息。文本块的NER结果，索引和坐标加在一起表示为图中深蓝色部分35维的向量。

由于图像中文本外的其他信息会对回答问题有帮助，文中用VGG-16编码全图信息（图中绿色部分）。

最后，问题用BiLSTM编码，得到的300维向量（图中黄色部分）和从图像中得到的所有特征拼接起来，输入进两层全连接层，得到预测结果。

在这里插入图片描述
模型输出为51维向量，分别是5个文本检测结果的索引、32种书籍类型、是或否、书籍版本（5种，1-5版）、年份（7种，2010-2016年）。向量中数值最大的就是预测结果。

Experiments

baseline方法的只是简单地将各种特征拼接起来输入全连接层，目前的准确率还是比较低（48.3%），未来还有很大的提升空间。目前的baseline的模型很庞大，需要有文本检测和识别模型，这两部分未来是否可以省略掉？另外感觉得到所有特征之后还需要有更好的处理。
在这里插入图片描述
作者还统计了模型回答不同类型问题的正确率，关于书籍类型的问题准确率最低（22%），yes/no的问题准确率最高（58.2%）。