MASTER: Multi-Aspect Non-local Network for Scene Text Recognition论文解读

最新推荐文章于 2023-11-02 10:33:47 发布

农夫山泉2号

最新推荐文章于 2023-11-02 10:33:47 发布

阅读量2.1k

点赞数

分类专栏： ocr 文章标签：文字识别 ocr

本文链接：https://blog.csdn.net/u011622208/article/details/102588704

版权

ocr 专栏收录该内容

44 篇文章 6 订阅

订阅专栏

文章目录

摘要

深度学习用于文字识别现在在一些场景中已经很成熟了，主要就是分为CTC和attention两种方案。现在基于attention的方案主要用LSTM和GRU，这种方式的主要问题是：训练和测试的都是one step by one step的，效率较低。
这篇文章提出了MASTER，其主要就是用CNN+Transformer的方式实现文字识别，这篇文章的主要创新点是在CNN中参考GCnet提出了Multi-Aspect GCAttention在CNN部分进行的改进。最近韩国的一篇论文也是采用CNN+Transformer的结构做文字识别的，其主要是在position encoding部分进行的创新。有兴趣的也可以读一下。
咋就直接解读创新点了，就不按文章的思路来了。

1. 网络结构

CNN部分主要是基于Resnet31修改而来的。
在这里插入图片描述
最后一个max_pool的窗口大小是1*2，保留更多宽度方向上的信息。整个CNN主要就是在Res模块后加上了multi-aspect gcattention模块。

1.1 multi-aspect gcattention模块
在这里插入图片描述
上图(a)表示GCBlock，他的解读可以参考知乎的这篇文章2019 GCNet（attention机制，目标检测backbone性能提升）论文阅读笔记，GCAttention模块相当于只是在通道C的方向上分割了h份，有点像Transformer中的多头操作，这里的h参数经过后面的讨论最后确定为8。
后面就是Decoder部分，Decoder部分重复了3次。参数3也是实验得出的。
在这里插入图片描述

2. 结果

结果就没啥好分析的了，直接附图。
在这里插入图片描述

农夫山泉2号

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
5
评论
MASTER: Multi-Aspect Non-local Network for Scene Text Recognition论文解读

文章目录摘要1. 网络结构2. 结果摘要深度学习用于文字识别现在在一些场景中已经很成熟了，主要就是分为CTC和attention两种方案。现在基于attention的方案主要用LSTM和GRU，这种方式的主要问题是：训练和测试的都是one step by one step的，效率较低。这篇文章提出了MASTER，其主要就是用CNN+Transformer的方式实现文字识别，这篇文章的主要创新...
复制链接

扫一扫

专栏目录