Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA

1. Abstract

首先,利用多模态线索来复现文本的语义信息,提出了一种视觉增强的文本嵌入方法,可以在不准确识别文本的情况下理解文本;其次,进一步利用上下文信息修改答案文本,即使OCR模块无法正确识别答案文本;此外,视觉对象被赋予语义表示,以使对象与OCR token处于相同的语义空间。有效地抑制了OCR性能差导致的累积错误传播

新增 reading modification module 以确保准确的答案预测。
2. Introduction

出现OCR错误(“百事”一词被误认为是“EPSI”),导致不合理的推理和回答。此外,即使模型执行适当的推理和定位,OCR错误仍可能导致不准确的答案预测

visually enhanced text embedding面向语义的object embedding,增强特征表示和提高推理能力

  1. enhanced text embedding:采用与文本相关的视觉语义映射网络(TVS)

  2. 面向语义的object embedding:面向语义的对象检测网络(SEO-FRCN),使对象具有语义表示能力,可视对象可以直接用语义特征表示,方式与OCR token相同

  3. for answer:利用文本与其周围环境之间的关系有助于识别场景中的文本。提出一个上下文感知阅读修改模块(CRM)来进一步检查或修改预测答案。

3. Related work

Text-based visual question answering

LoRRA通过OCR注意分支扩展了现有的VQA模型Pythia。答案可以从固定词汇表中预测,也可以从检测到的OCR标记中复制;M4C传送门将LoRRA中的复制机制替换为动态指针网络,并利用 transformer 组合多模态信息,但它只是将每个模态的所有实体(问题、OCR token和视觉对象)投影到一个联合嵌入空间中,并不加区别地处理它们;SA-M4C进一步明确编码了transformer架构中视觉实体之间的空间信息;Zhu等人认为,简单的注意机制可以获得与以前复杂的多模态框架相当的性能,因此使用三个普通attention block和基于transformer的解码器来生成答案。然而,这些现有方法只是将OCR和VQA模块级联,因此它们受到读取性能的显著限制。

Representation learning in TextVQA

LoRRA单独使用FastText为每个标记生成word embedding。M4C进一步添加了字符金字塔直方图(PHOC),Faster R-CNN和bboxes特征,以便分别对字符、外观和空间位置信息进行编码

Context-based text spotting in the wild

Sabir等人最初使用pretrain文本定位网络可以获得一系列的文本假设。然后根据词频和语义关联度对这些假设进行重新排序。他们接下来的工作进一步建议利用对象、场景和图像标题的视觉信息对候选文本重新排序

4. Methodology
multimodal inputs, transformer encoder and answer prediction decoder
4.1 Visually Enhanced Text Embedding

TVS的设计理念:一般OCR识别错误时,语义错误例如将单词“horse”识别为“house”。为了减少由识别错误引起的语义错误的积累,利用视觉线索直接获得文本的语义嵌入。与文本相关的视觉语义映射网络(TVS)(同时获取视觉和语义模态)

根据文本区域的视觉信息预测语义特征。

该网络包括四个主要组件:
1)用于校正扭曲文本图像的校正模块
2)由基于ResNet[22]的CNN和用于提取视觉特征的双向LSTM组成的编码器
3)包括GRU和用于预测识别结果的attention机制解码器
4)利用中间语义模块预测单词的全局语义embedding

在中间语义模块中,对视觉特征进行reshape和Linear投影(实现了视觉到语义的线性投影,红色框部份),得到一个300维的语义特征,which is supervised by the word embedding generated from a pre-trained FastText model(之前结构一样)

此外,在一个线性函数之后,利用语义特征初始化GRU的hidden state。它允许解码过程由单词的语义信息引导。

TVS通过最小化识别损失和语义损失,在SynthText和Synth90K数据集上进行端到端训练。语义损失表示为预测的语义特征向量word embedding之间的余弦距离

在语义特征提取过程中,移除TVS的decoder,并对视觉到语义的Linear投影(红色虚线框)进行微调,同时最小化question answering loss.

4.2 Semantically Oriented Object Embedding

面向语义的对象检测网络(名为SEO-FRCN)

we extend the Faster R-CNN with a branch to predict the corresponding object label embedding, which is supervised by the FastText embedding of the object name(由FastText embed object name)

其次,具有语义关联的视觉实体具有较高的特征相似度(如汽车和车牌、交通灯和标志),预测的对象的label embedding可视为对象的word embedding,相当于赋予object语义描述

4.3 Context-aware Reading Modification(语境感知阅读修改)

利用TextVQA任务中丰富的上下文信息来修改答案结果,提出了一个名为CRM的上下文感知阅读修改模块作为后处理器,用于增强复制的答案

具体而言,如果在某一步解码的答案词指向OCR标记,则该答案词将被视为候选答案词。它的表示及其上下文被发送到修改模块,该模块也被构建为一个多模态transformer与二进制分类器的连接。上下文包括问题文字其他OCR toekns相关视觉对象。注意,在为了降低CRM中的计算复杂度,只有对象其IOU的候选答案区域大于𝛼 (设为选择0.3),修剪object label embeddings成相关对象。

更重要的是,与BOV的输入不同,这里的目标是纠正错误的是候选答案单词,只关注它的视觉效果属性(视觉衍生文本嵌入)。通过transformer的互动,候选答案词的解码输出包含丰富的上下文信息。然后我们把它放进一个线性层和一个sigmoid函数来执行二进制分类。

CRM模型通过交叉熵损失进行训练,其中目标值(0或1)是候选答案与其上下文之间的相关性得分

最终将发送三个候选识别结果将该令牌对应到CRM中,并获取具有最高关联性得分作为最终答案词

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
OCR-VQA(Optical Character Recognition - Visual Question Answering)数据集评估指标可以根据任务的性质和目标进行选择。以下是一些常用的评估指标: 1. 准确率(Accuracy):在OCR-VQA任务中,最常用的评估指标是准确率。它衡量模型回答问题的正确率。如果模型给出的答案与人工标注的答案完全匹配,则计为1,否则计为0。最终的准确率是所有样本的平均值。 2. Top-k Accuracy:为了考虑到可能存在多个正确答案的情况,可以使用Top-k准确率。在Top-k准确率中,将模型预测的答案与人工标注的答案进行比较,只要模型预测的答案在标注答案的前k个里面,就认为是正确的。Top-k准确率可以更全面地评估模型的性能。 3. 结果排序(Ranking):在OCR-VQA任务中,还可以使用排序评估指标,例如Mean Rank和Median Rank。这些指标衡量模型在给定问题下对所有可能答案的排序性能。较好的模型应该能够将正确答案排在前面。 4. 分布式评估(Distributional Evaluation):除了对单个样本的准确性进行评估,还可以考虑模型对整个标注答案分布的拟合程度。例如,模型的预测分布应与人工标注的分布相似,可以使用KL散度或交叉熵等指标进行评估。 这些指标可以根据具体的OCR-VQA任务和评估需求进行选择和组合。同时,还可以根据任务的特点,设计和使用更加适合的评估指标。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值