阅读笔记——CRNN：An End-to-End Trainable Neural Network for Image-based Sequence

最新推荐文章于 2023-11-17 16:25:19 发布

哇哇九号

最新推荐文章于 2023-11-17 16:25:19 发布

阅读量1.4k

点赞数

分类专栏：文档检测识别深度学习文章标签：深度学习神经网络人工智能 ocr

转载请注明

本文链接：https://blog.csdn.net/bengyanluo1542/article/details/121484281

版权

深度学习同时被 2 个专栏收录

30 篇文章 0 订阅

订阅专栏

文档检测识别

4 篇文章 0 订阅

订阅专栏

概述

这篇文章主要针对场景文字识别问题，提出一个包含特征提取、序列建模以及转录层的整体框架，在不需要字符级别等的标注情况下，完成端到端的文字识别。

对例如文本、乐谱这种序列的识别本身就是一个序列识别问题，而且是不定长序列。与一般的目标识别差异很大。

当前已有的一些文字识别方法都存在一些缺陷：例如一些方法先做单字文字检测，然后对每个文字分类，但是这需要一个强大的检测器；另外一些方法，例如基于单词做分类，构造一个包含 90K 个单词的字典，这是一个很大数量类别的分类器，难以保证分类正确率而且很难扩展。

方法

作者在这篇文章中提出卷积循环神经网络（Convolutional Recurrent Neural Network，CRNN），将 CNN 和 RNN 进行了组合。

对于一个序列识别问题， CRNN 具有一些如下的优势：

可以直接使用序列标签学习，不需要细节标注，例如字符级标注；
和 CNN 类似，直接输入图片，不需要额外的包括分割、二值化等预处理步骤；
和 RNN 类似，可以输出序列标签；
不受序列长度约束，只需要对高度做归一化；
比当前文字识别方法指标更高；
包含参数少，内存要求小。

整体网络结构

整体网络结构如下图所示。它包含特征提取层、循环层和转录层。
在这里插入图片描述

特征提取

特征提取层由卷积和最大池化组成。如下图所示，特征空间中每个向量都关联到一个感受野，因此可以视为这个区域的图像描述符。
在这里插入图片描述

序列建模

在卷积层上边增加一个双边循环网络作为循环层。使用这样一个基于 RNN 循环层具有多个好处：

可以使用 RNN 捕捉上下文信息，增强识别鲁棒性；
可以和 CNN 联合优化；
RNN 可以在任意长度序列上操作。

同时在具体使用上，如下图所示，为了同时利用图像两边的信息，组合了两个LSTM形成双向 LSTM：
在这里插入图片描述

转录层

转录层将 RNN 的每帧预测转换成一个标签序列。在数学上就是：转录层在每帧上找到概率最大的标签，形成标签序列。

标签序列的概率

在序列概率计算上使用 Connectionist Temporal Classification（CTC），它无需知道每个标签具体对应的标注位置。

给定一个输入序列 $y=y_1,......,y_T$ ，其中 $T$ 是序列长度，每个 $y_t$ 都是一个概率分布，它表征了预测成每个字符的概率（包含 ‘blank’ 字符）。 $\pi$ 是一条长度为 $T$ 的路径，通过一个函数 $\Beta$ 将 $\pi$ 映射到序列 $l$ 。在映射过程中先移除重复字符，然后移除 ‘blank’ 字符。因此条件概率被定义为所有的 $\pi$ 路径的和，这样的路径将把 $\Beta$ 映射为 $l$ ：
$p(l|y)=\sum_{\pi:B(\pi)=1}^{}{p(\pi|y)}$

其中 $\pi$ 就被定义为 $p(\pi|y)=\prod_{t=1}^{T}{y^{t}_{\pi_{t}}}$ ，其中 $y^{t}_{\pi_{t}}$ 是时间 $t$ 处预测为标签 $\pi_{t}$ 的概率。直接对上式进行计算有指数级别的计算复杂度，因此使拥到专门的高效实现。

无需字典的转录

为了进行高效计算，直接将上式中同一时间戳下具有最高概率的字符作为预测输出。也就是直接将每个时间戳 $t$ 下的概率最高的字符 $\pi_{t}$ 输出。

网络训练

在网络训练中需要计算损失，这里直接将条件概率的负对数作为损失，因此训练目标就是最小化这样一个负对数：
在这里插入图片描述
优化器上使用 ADADELTA 优化器，不用手动设置学习率，并且获得了比基于 momentum 方法更快的收敛速度。

在池化时还使用了 $1 \times 2$ 大小的池化窗口，使得感受野具有了更大的宽度，训练输入图像都 scale 到 $100 \times 32$ 。

实验及指标

和之前模型的对比如下图所示，可以看到相比之前的一些模型大小极为降低：
在这里插入图片描述
在各个数据集上的识别精度，也有很大的提升：

为了验证模型的泛化性能，还做了乐谱识别实验，也取得了不错的效果：

哇哇九号

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
阅读笔记——CRNN：An End-to-End Trainable Neural Network for Image-based Sequence

CRNN——An End-to-End Trainable Neural Network for Image-based Sequence 阅读小笔记
复制链接

扫一扫