MASTER: Multi-Aspect Non-local Network for Scene Text Recognition论文解读

摘要

深度学习用于文字识别现在在一些场景中已经很成熟了,主要就是分为CTC和attention两种方案。现在基于attention的方案主要用LSTM和GRU,这种方式的主要问题是:训练和测试的都是one step by one step的,效率较低。
这篇文章提出了MASTER,其主要就是用CNN+Transformer的方式实现文字识别,这篇文章的主要创新点是在CNN中参考GCnet提出了Multi-Aspect GCAttention在CNN部分进行的改进。最近韩国的一篇论文也是采用CNN+Transformer的结构做文字识别的,其主要是在position encoding部分进行的创新。有兴趣的也可以读一下。
咋就直接解读创新点了,就不按文章的思路来了。

1. 网络结构

CNN部分主要是基于Resnet31修改而来的。
在这里插入图片描述
最后一个max_pool的窗口大小是1*2,保留更多宽度方向上的信息。整个CNN主要就是在Res模块后加上了multi-aspect gcattention模块。

1.1 multi-aspect gcattention模块
在这里插入图片描述
上图(a)表示GCBlock,他的解读可以参考知乎的这篇文章2019 GCNet(attention机制,目标检测backbone性能提升)论文阅读笔记,GCAttention模块相当于只是在通道C的方向上分割了h份,有点像Transformer中的多头操作,这里的h参数经过后面的讨论最后确定为8。
后面就是Decoder部分,Decoder部分重复了3次。参数3也是实验得出的。
在这里插入图片描述

2. 结果

结果就没啥好分析的了,直接附图。
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值