MORAN文本识别算法开源,刷新多个OCR数据集state-of-the-art

点击我爱计算机视觉标星,更快获取CVML新技术


近日华南理工大学金连文老师组在文本识别领域又出牛文,提出一种基于像素级不规则文本纠正的识别新算法MORAN(Multi-Object Rectified Attention Network),刷新了多个OCR数据集的最高精度,并将其开源了!

MORAN文本识别算法由矫正子网络MORN和识别子网络ASRN组成,在MORN中设计了一种新颖的像素级弱监督学习机制用于不规则文本的形状纠正,大大降低了不规则文本的识别难度。

MORN与ASRN可端到端联合学习,训练过程不需要字符位置或像素级分割的监督信息,使得网络的训练大大简化。在常用的IIIT 5K、IC03、IC13、SVT、SVT-Perspective、CUTE80、IC15等7个OCR数据集上,取得了state-of-the-art的识别性能。

文本识别的难题——形状不规则

虽然目前文字识别的应用广泛,但自然场景文字识别仍然面临诸多挑战,其中影响识别率的重要因素就是文本形状的不规则。如下图:

文本形状的多样化上如依次为(a)水平规则文本;(b)倾斜文本;(c)弯曲文本。

普通的矫正方法——仿射变换

普通的矫正方法,使用仿射变换能够对图像做整体的变换,其对图像的纠正局限于缩放、旋转和平移。在深度学习网络中使用STN(Spatial transformer networks)网络可以做这样的纠正。

使用STN学习仿射变换系数

MORN形状矫正方法

该文作者基于分解的思想,提出了一种像素级预测的纠正模型,首先将文本图像分解为多块小图像,然后对每块小图像回归偏移量,并对偏移量进行平滑操作,再在原图像上进行采样,得到新的形状更加规则的水平文本。

整体网络结构

MORN网络结构

矫正的文本图像示例

然后作者设计了基于注意力机制下的识别算法ASNR。

ASRN网络结构

最终的MORAN算法在多个数据集上均超越了state-of-the-art。

实验结果

作者称论文投稿时达到多个数据集当时最高准确率。

最新改进

该文已被Pattern Recognition录用,近期升级的MORAN v2版又做了多项改进:

(1)增强了MORN网络的稳定性,降低了训练难度,实现了单步训练;

(2)使用ResNet替换VGG作为骨干网络;

(3)借鉴了白翔老师组PAMI2018论文中双向解码器思想。

更新后精度如下:

论文及代码地址

https://arxiv.org/abs/1901.03003 

https://github.com/HCIILAB/MORAN_v2

https://github.com/Canjie-Luo/MORAN_v2

本文来自于MORAN论文及CSIG文档图像分析与识别专委会公众号:https://mp.weixin.qq.com/s/XbT_t_9C__KdyCCw8CGDVA

加入专业讨论群

加入52CV-OCR专业讨论群,扫码添加52CV君(your-word)拉你入群:

(请务必注明:OCR)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:928997753。

(不会时时在线,如果没能及时通过验证还请见谅)

更多技术干货,详见:

新年快乐!"我爱计算机视觉"干货集锦与新年展望


长按关注我爱计算机视觉

麻烦给我一个好看

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值