2D Attention Network for Scene Text Recognition

paper地址:2D Attentional Irregular Scene Text Recognizer.

继 Transformer-based-OCR 后又一篇基于语言、翻译模型架构的不规则文字识别的paper,主要贡献如下:

  • attention部分使用多层双向transformer的block(BERT)替代了单transformer block;
  • label只用于计算loss,不用作网络输入,因此output过程是一次性输出整个字符串,精度和inference速度较之Transformer-based OCR都有所改善;
  • decoder部分串联了一个BERT attention模块,增强了输出节点间(每个字符作为一个节点)的依赖关系;
  • 支持多行字符识别;

网络结构:

  • Feature Extraction Module:图像resize为32x100作为输入,encoder部分是基于ResNet的CNN模块,得到的feature map 经过flatten操作压缩为一维特征向量,记为I;再将I按照顺序做 position encoding 得到位置编码矩阵E,最后将F = I + E 作为encoder输出和后面的 Relation Attention 模块的输入;
  • Relation Attention Module 为一个BERT模块(橘黄色虚线处),其具体结构如下:

这是一个多层双向的transformer block,关于transformer block的具体信息,参见上篇曲形文字识别的博文:Transformer-based OCR;其中还是有几点值得说一下:

  1. 首先这一块的输入为前面的F(即每一个 transformer block 的Q, K, V均为 F);
  2. 没有self attention mask,因为预测时整个字符串一同输出,不存在靠后的字符泄露信息给前面字符的问题;
  3. 论文中 block size 和 layer 层数均取 2;
  • Parallel Attention module部分实际上是在上一个BERT模块输出的基础上做线性变换和softmax,其公式如下:

其中W_1W_2为线性变换矩阵,O^T为上一模块的输出转置后的结果,得到\alpha的是一个attention权重矩阵;

 I是前面encoder部分得到的特征图,输出G是每一个输出节点的glimpse集合(即每一个字符对应的概率向量);

  • decoder:作者称之为 two stage decoder,一般来说,在得到上述的glimpse矩阵G后,经过一个线性变换和softmax就可以得出最终的预测结果,但是作者认为因为 parallel attention 部分的计算使得输出节点之间的依赖关系丢失,为了弥补这一部分的损失,在G之后又接了一个BERT模块,得到的glimpse' 再经过常规的decoder操作得到输出字符串。和前面的transformer 还有 RNN / LSTM attention网络不同,这里直接输出n个字符节点(论文中n取35,即一般单词长度不会超过35),并且以EOS标志前的字符节点作为最终的预测结果。这样的好处就是每一个字符的输出不依赖前一个字符的输入,所以不会出现中间字符预测错误后对后面字符的预测有影响的情况。结构图如下:

上面为G直接decode,下面为经过一个BERT模块再decode,inference时取下面的结果为最终结果。

  • 网络的loss函数为两个stage的branch预测的结果分别与ground truth的做cross entropy,再相加得到的和作为网络总的loss。

公共数据集上的表现:

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值