不规则文字识别方法之 SAR: Show, Attend and Read （2018）论文解析

最新推荐文章于 2022-08-24 14:02:53 发布

Liu, Xu

最新推荐文章于 2022-08-24 14:02:53 发布

阅读量7.7k

点赞数 6

分类专栏：场景文字识别

本文链接：https://blog.csdn.net/francislucien2017/article/details/88583219

版权

6 篇文章 3 订阅

订阅专栏

对于不规则（曲形文字、艺术字等）的识别，作者没有采用基于修正（rectification）的策略，而是提出利用基于不规则文字而构造的（tailored）基于二维注意力机制模块（2D attention module）的模型来定位和逐个识别字符的弱监督方法。

之所以说是弱监督是由于该模型可以在不用额外的监督信息就可以定位单个字符（即不需要字符级别或像素级别的标注）。

先贴一下效果图：

<原图 - 基于二维注意力机制 - 基于修正策略>

网络总体结构：

网络的CNN模块用的是31层的ResNet，得到的特征图再经过基于LSTM的编码器-解码器框架（encoder-decoder framework）以及两端和feature map、解码器相连的 2D attention 模块，最终输出识别的字符串。

相关概念解释：

LSTM编码器-解码器：编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列。当前 time step 的 hidden state 是由上一 time step 的state和当前 time step 输入决定的，也就是获得了各个时间段的隐藏层以后，再将隐藏层的信息汇总，生成最后的语义向量C；通常传统的 encoder-decoder 结构将 encoder 最后的隐藏层作为语义向量C，作为 decoder 的输入；
attention机制：对当前关注的部分赋予较大的注意力（权重），这种权重分布通过计算当前输入与输出的相关度来设定。这是因为传统LSTM的结构不论输入序列多长都会被编码成固定长度的向量表示，而当输入序列很长时，而编码长度固定意味着存储的信息有限，因而效果欠佳，而attention机制通过保留LSTM编码器对输入序列的中间输出结果，然后训练一个模型对这些输入进行选择性的学习并在模型输出时将输出序列与之关联，因此在序列学习的任务上提升巨大。

接下来一次分析网络的每个模块：

不改变原文字图片（不修正）
编码器encoder：
- 2层，每层各512个hidden state的LSTM模型；
- 每一个time step编码器的一项输入（图中下方）是CNN得到的二维特征图的第 i 列经过垂直方向最大池化的特征信息；
- 经过W（特征图的宽）个time step后，第二层LSTM的最后一个hidden state 就是输入图像的一个固定尺寸的特征表示，称为 holistic feature；
解码器decoder：
- 2层，每层各512个hidden state的LSTM模型；
- 编码器和解码器之间不共享参数；
- （初始化的输入）, "START" token，以及前一层的输出，依次作为当前step的输入，直到被"END" token终止；
- 所有的LSTM输入都是经过one-hot向量表示后，再经过一个线性变化 $\Phi()$ 函数；
- 训练阶段，解码器LSTM的输入由 ground truth 的字符序列代替；
- 每一个step的输出由当前step的 hidden state 和attention的输出作为函数的输入得到：
  - $y_t = \phi(h'_t, c_t) = softmax(W_o[h'_t;c_t])$ , 其中是当前的 hidden state，是attention模块的输出，是一个线性变化，将特征嵌入输出空间的94个类别（10个数字，26*2 个字符，31个标点符号）；