Unambiguous Text Localization, Retrieval,and Recognition for Cluttered Scenes

本文探讨了一种新的视觉短语基础方法,专注于从自然语言描述中定位和识别图像中的特定文本实例。提出的DTLN方法包括场景文本检测、检索和识别三个模块,利用LSTM网络避免重复检测。此外,还介绍了基于CNN和LSTM的循环文本识别,以及CRTR模型,该模型处理自然语言查询和图像中的视觉关系。评估指标包括精度和召回率,但方法在处理曝光过度和字符间距过大等挑战时仍有局限。
摘要由CSDN通过智能技术生成

最新的视觉短语基础方法侧重于一般的目标对象,但本文探索了提取指定文本和预测明确的场景文本信息,即从自然语言描述中准确定位和识别杂乱图像中的特定目标文本实例。

我们在本手稿中提出的方法包括三个模块(场景文本检测、检索和识别)

从文本提取中列出离散和无序的单词

该方法是第一个将基于图像的场景文本定位与基于语言的本地化文本实例描述联合建模的解决方案

通过LSTM网络,DTLN可以记住之前生成的文本边界框,避免在同一目标的多个尺度上重复检测。DTLN作为一种顺序定位模型

512*20*15的空间特征图  

 

DTLN:

通过卷积编码网络将场景图像的跨步区域编码为512维特征向量。构建了一个循环解码器,对所有潜在目标对象(在我们的框架中是场景文本实例)按顺序进行联合预测。

基于LSTM的解码器依次输出新的边界框及其相应的置信度分数。该分数表示在边界框位置找到以前未检测到的文本实例的概率。边界框按置信度得分递减的顺序生成。当基于LSTM的解码器无法在跨步区域中找到更多置信度较高的边界框时,将生成一个停止符号以结束整个解码过程。

在每个步骤中,我们将VGG-16特征映射与前一个LSTM单元的输出连接起来,并将结果输入下一个LSTM单元。该网络通过LSTM解码器学习在文本实例的边界框上精确回归。

在测试阶段,低于预先规定阈值的置信度分数被解释为停止符号。置信度越高,表示边界框越有可能覆盖真正的文本实例。

基于CNN的编码器与基于LSTM的解码器的结合在我们的框架中起着关键作用。它可以生成可变长度的连贯预测集。

循环文本识别:

VGG-16体系结构用于获取特征映射,从中提取一系列特征向量,作为后续循环解码器的输入。

序列特征向量生成后,采用叠加双向LSTM遍历序列特征,并将其解码成与特征序列中所有向量对应的分布。LSTM中的循环层能够捕获序列中的上下文信息,这比将文本序列划分为单独字符进行独立处理更有效、更稳定。

转录是在每向量预测的条件下找到概率最高的字符序列。

在检索到的文本实例上用于文本识别的整个编码-解码过程。

遵循CNN-RNN编码器-解码器体系结构进行文本识别

CRTR:

给定一幅图像,以及一个自然语言查询文本序列和一组候选文本边界框(基本事实或由提议的DTLN生成)

模型有三个LSTM单元(lang,local,global),一个局部和全局CNN,以及单词嵌入和预测层。

在查询文本序列中,将单词表示为一个热向量,通过线性单词嵌入矩阵进行嵌入,并以LSTMlang作为输入时间序列进行处理。

CNN local(处理局部单词补丁的局部卷积网络)和CNN global(处理整个图像的全局卷积网络)都是从完全卷积VGG网络初始化的,整个CRTR网络通过反向传播进行端到端训练。

将语义空间缩减为只包含单个文本实例和单个上下文对象之间的关系,因为所有可能的关系对的语义空间都比单个文本实例和上下文对象的语义空间大得多。可视关系被表示为语言查询{text relationship context}将语言三元组与图像中的像素区域对齐。

单词预测层根据局部图像区域框、整个图像、空间结构和所有之前的输入单词预测下一个单词的条件概率分布。具体地,单词预测层指示/基于所有当前和先前预测的信息/预测下一单词的条件概率分布的Softmax层。

评估协议:标准PASCAL VOC检测标准(联合的交叉点在其边界框和真实数据之间超过50%)DetEval标准(一种更强调检测质量的评估指标)

DTLN仍然无法处理一些具有挑战性的情况,例如曝光过度和字符间距过大

precision@1关于单个文本检索评估的度量,recall@1(得分最高的文本边框提案正确的百分比),recall@5(前五名得分最高的文本框提案中至少有一个提案的百分比是正确的)

拓展理解:

nlp任务中,计算机不会直接处理文本信息,而是需要先将句子转化为矩阵进行处理。通常,先将句子划分为单词,每个单词用一个固定维数的向量表示(比如300),而句子的维数也会固定为一个常值(max_len),并进行补齐。词嵌入矩阵就是将单词从one-shot形式转化为固定维数的向量时所需的转换矩阵。

深度学习模型在训练过程中,从输入端(输入数据)到输出端会得到一个预测结果,与真实结果相比较会得到一个误差,这个误差会在模型中的每一层传递(反向传播),每一层的表示都会根据这个误差来做调整,直到模型收敛或达到预期的效果才结束,这是端到端的。

本地化就是使应用适合与本地区用户习惯的过程。本地化涉及多方面内容,包括文字、货币、日期和图片,甚至语音都需要本地化。

Referring Expression(指称表达)是指任何一个目的为识别某一特定人物、地点、事物的词或者短语。通常是一个名词、名词短语或者代词。

数据集中,有大量图片及其对应的文字描述,在训练时候,将文字描述和对应的图像区域对齐。然后,在输入一张图片的时候,在数据集中找到和图片本身每个像素区域对应概率分布最大的图片像素区域,并使用它的文字描述,接着通过cnn-rnn生成输入图片的文字描述,rnn可以根据之前生成的单词预测下一个单词的概率分布。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值