【文本识别】CRNN

可乐大牛

已于 2022-05-16 14:00:23 修改

阅读量1.3k

点赞数

分类专栏：论文学习文章标签：其他

于 2022-05-15 21:59:36 首次发布

本文链接：https://blog.csdn.net/qq_44173974/article/details/124787611

版权

论文学习专栏收录该内容

68 篇文章 9 订阅

订阅专栏

论文正文

链接：链接，提取码：jp0h
参考博客：链接

概述

以往做文本识别主要有三种做法：
做法1：基于CNN的方法：先检测单个字符，然后识别这些字符；给每个英语单词设置一个类别，直接当成分类问题解决，这些方法都无法直接用于场景文本的识别。
做法2：基于RNN的方法，需要做一步预处理，将image转换为sequence，无法实现端到端的训练。
做法3：非nn的做法，性能不行。

本文：提出CRNN模型，解决基于图像的序列识别问题，特别是场景文字识别问题。它是一个端到端的识别，本质就是CNN提取特征，再将特征转换为 feature sequence，通过RNN对序列进行预测，最后通过一个CTC的翻译层得到最终结果。

细节

网络结构

在这里插入图片描述
网络结构自下而上主要分为三个部分：

CNN：进行特征提取，得到feature map，将feature map转换为sequence
RNN：使用双向DLSTM对输入的序列进行预测，得到输出
CTC：翻译，对RNN的输出进行处理得到预测结果。

CNN

在这里插入图片描述

首先，所有输入图片都是32×W×1 的。经过CNN得到一个1×（W/4）× 512的feature map，接着做Map-to-Sequence。
Map-to-Sequence：就是将CNN得到的feature map转换为sequence。
转换方式：在列方向上从做往右生成feature sequence，也就是每个vector都是512x1x1的，一个sequence包含（W/4）个vector，并且这些vector中的每个dimention在原来的feature map中对应的感受野都是同一个。
在这里插入图片描述

RNN

对于输入的（W/4）个vector，经过双向DLSTM之后，得到对应的（W/4）个输出vector，维度是n+1（如26个英文字母+1个blank），这个vector是softmax之后的概率分布，每个dimention表示对应字符的概率是多少，那么整个feature sequence经过DLSTM之后就得到了一个（W/4）x（n+1）的概率矩阵。
什么是双向DLSTM：RNN中有梯度消失的问题，所以将neuron替换为LSTM。为了能够在做序列预测的时候，看到上下文的信息，而不是单纯上文的信息，使用了双向LSTM，一边从前往后，一边从后往前。而多层双LSTM的深度结构，就是DLSTM。

在这里插入图片描述

CTC

CTC主要进行翻译，从RNN的输出概率矩阵中得到标签序列。
如何翻译：假设我们从概率矩阵中选好了输出是h--eee-l-low（假设-代表我们之前提到的blank字符），翻译结果就是hellow。
规则：1、首先去除连续重复元素，只保留一个；2、去掉-字符

推理阶段：比较简单，对于RNN输出的每个vector，取概率最大的字符，拼接起来，再使用上面的翻译规则处理即可。

训练过程：比较复杂，首先我们有的是一个概率矩阵和对应的label，两者的个数是不相同的，怎么训练呢？首先根据这个概率矩阵，我们可以找到n个输出，这n个输出在翻译结束之后得到的结果都是label。那么我们可以使用最大似然估计计算在当前输出的情况下，得到这n个输出类型的概率，对于他们求和就可以得到输出这个label的概率。我们希望这个概率越大越好，因此它与1的差距就是损失。
在这里插入图片描述

可乐大牛

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【文本识别】CRNN

目录论文正文概述细节网络结构CNNRNNCTC论文正文链接：链接，提取码：jp0h概述以往做文本识别主要有三种做法：做法1：基于CNN的方法：先检测单个字符，然后识别这些字符；给每个英语单词设置一个类别，直接当成分类问题解决，这些方法都无法直接用于场景文本的识别。做法2：基于RNN的方法，需要做一步预处理，将image转换为sequence，无法实现端到端的训练。做法3：非nn的做法，性能不行。本文：提出CRNN模型，解决基于图像的序列识别问题，特别是场景文字识别问题。它是一个端到端的识别，
复制链接

扫一扫