[ECCV2018][端到端文字识别]

本文介绍了ECCV2018一篇关于端到端检测和识别弯曲文字的研究,挑战传统分开检测和识别的方法。文章详细阐述了端到端方法的优势,如速度提升和效果优化,并对比了传统方法的不足。基于Mask R-CNN的网络结构创新性地加入了文字识别分支,采用像素投票法进行识别,对弯曲文字的识别效果表现出色。尽管中文识别可能存在挑战,但该方法在弯曲文字检测识别上具有开创性意义。
摘要由CSDN通过智能技术生成

SIGAI特约作者

谢恩泽

同济计算机研三在读,face++ 研究实习生

主要研究方向为目标检测,语义分割等其中包括文字检测和识别

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造。

 

image.png

 

前言:这篇文章是第一个做弯曲文本的端到端检测+识别。

 

传统的方法将文字检测和文字识别分为两个分开的部分,即输入一张图,先进行文字检测,检测出文字的位置,再进行文字识别,即对检测出的文字抠出来并送入识别网络。这样一方面比较费时间,第二没有共享检测和识别的特征。

 

一  什么是端到端检测识别?

即只需要一个网络,输入一张图片,同时输出检测和识别的结果,相比传统先检测再识别的好处在于

(1)速度更快,因为流程更简单

 

(2)效果更好,由于多任务学习使得网络能提取更为鲁棒的特征,每一个任务都可以有一定程度的提高。

端到端训练文字检测和识别可以使得这两个任务都能得到提高,使得梯度能从这两个分支分别回传到主干网络,能使得定位更加精准并减少错误样本的检测。

 

传统做法大多数分为以下四步

(1)检测出旋转的文字框

 

(2)并做一个仿射变换

 

(3)在feature map上将文字区域抠出来

 

(4)用crnn或者类似sequence的方法识别。

这种方法的缺点在于文字可能检测的不够精准,这样对于识别来说就会造成一定困难,比如文字边缘多框了一些空白区

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值