Extremal Region(极值区域)文本定位与识别法-学习笔记(一)

本文介绍了基于极值区域(ER)的文本定位与识别方法,适用于复杂场景,对模糊、光照变化具有高稳健性。通过序列选择和高效特征估计,实现端对端的文本检测,且在ICDAR 2011及StreetView Text数据集上表现出色。方法包括ER检测、分类阶段和OCR识别,其中新引入的梯度级投影有助于减少ERs并提高字符检测率。
摘要由CSDN通过智能技术生成

最近做一个计算机视觉的项目,要将其中复杂场景中的文本识别率从92%进一步提升,挑战很大也很有意思。边阅读一些最新的文本定位与识别的论文,边在这里记下阅读笔记与翻译内容,慢慢研究。本人英语与专业水平有限,仅供学习参考,欢迎交流,请多指教。

      

        Reference:Real-TimeScene Text Localization and Recognition    Luk´aˇsNeumann  Jiˇr´ı Matas  2012 IEEE

一:引言

现实场景的文本定位与识别是很多计算机视觉应用的关键部分。比如通过文本内容来搜索图片、在地图应用(如谷歌街景)中读取商标,或者辅助视觉障碍人员。

在图像中进行文本定位,是一项潜在计算代价非常高的任务,通常一个有N个像素的图像,2N(每个像素都有2种可能:选取做为像素子集中的像素或不选取,所以有2N个像素子集)个像素子集中任何一个都可能是符合的文字图像。文本定位处理这一难点时,采用了两种不同的方法:

(1) 用滑动窗口来将这种搜索限制在图像矩形的子集中,这将检测文字出现的子集数减少到cN(c是常数值,单尺度、单旋转方法时,c小于1;多尺度、多旋转、多倾斜等方法处理时c大于1)。

(2) 假定属于同一字符的像素有相似性质,则可以用连通域分析的方法,把像素分组成不同区域,以此来找到单独的字符。连通域分析根据用到的属性(颜色、笔划宽度等)而不同。

优点:其复杂性不依赖于文本的属性(尺度范围,方向,字体),而且它提供了可供OCR步骤中利用的分割。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值