matlab实现MSER(最大极值稳定区域)来进行文本定位

一、自然场景文本定位综述 场景图像中文本占据的范围一般都较小,图像中存在着大范围的非文本区域。因此,场景图像文本定位作为一个独立步骤越来越受到重视。这包括从最先的CD和杂志封面文本定位到智能交通系统中的车牌定位、视频中的字幕提取,再到限制条件少,复杂背景下的场景文本定位。与此同时文本定位算法的鲁棒性越来越高,适用的范围也越来越广泛。文本定位的方式一般可以分为三种,基于连通域的、...
摘要由CSDN通过智能技术生成

一、自然场景文本定位综述    

     场景图像中文本占据的范围一般都较小,图像中存在着大范围的非文本区域。因此,场景图像文本定位作为一个独立步骤越来越受到重视。这包括从最先的CD和杂志封面文本定位到智能交通系统中的车牌定位、视频中的字幕提取,再到限制条件少,复杂背景下的场景文本定位。与此同时文本定位算法的鲁棒性越来越高,适用的范围也越来越广泛。文本定位的方式一般可以分为三种,基于连通域的、基于学习的和两者结合的方式。基于连通域的流程一般是首先提取候选文本区域,然后采用先验信息滤除部分非文本区域,最后根据候选文本字符间的关系构造文本词。基于学习的方式关键在于两个方面:一是不同特征提取方法的使用如纹理、小波、笔画等。二是分类器的使用如支持向量机(Support Vector Machine,SVM),AdaBoost等。连通域和学习结合的方式一般在提取阶段采用连通域的方式,但是滤除阶段是通过训练样本学习分类器来实现非文本的滤除。

1. 基于连通域的方式

  连通域分析是在场景文本图像二值化后进行的,所以开始的研究集中在场景文本图像的预处理、增强和二值化上。基于连通域的方式很少需要在多尺度上进行操作,所以运算时间较快,但存在需要大量的先验信息来滤除文本区域的弊端。

2. 基于学习的方式

  基于学习的方式一般流程是先将图像分割成一个个窗口,提取窗口中图像的特征,然后利用一个训练好的分类器来将窗口分成文本和非文本,最后将文本区域连成一个文本行。基于学习的方式,计算量大,一般都在多尺度上处理,而且需要先准备好训练的数据来训练分类器。

3. 连通域和学习结合的方式

  这一方式一般都是分为两个阶段,阶段一是提取候选的连通区域,这个阶段一般采用的是连通域分析的方法。阶段二是文本区域和非文本区域的分类,这一阶段一般是采用分类器的方式实现的。两者结合的方式虽然没有众多的参数设置,但还是无法摆脱训练数据的限制。

二、利用MSER来进行文本区域定位

  最大极值稳定区域是由Matas等人提出的一种仿射特征区域提取算法。其提取的区域内部灰度几乎不变但是和背景的对比十分强烈,并且该区域能够在多重阈值下保持形状不变。一般文本内部的灰度变化都比较小,而文本和背景的灰度对比度则比较大,符合最大极值稳定区域的特性,因此利用这一特性可以提取颜色聚类无法得到的部分连通域。

    最大极值稳定区域先将图像转换成灰度图像,然后在一定的阈值下将图像转换成一系列的二值图像。随着亮度阈值的增加或者减少,区域不断的出现、生长和合并。两个不同阈值间的区域变化不超过一定阈值就能够被认为是稳定的。最大极值稳定区域的数学定义:定义图像 Eqn040为区域 Eqn041到灰度Eqn042 的映射

  • 5
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 14
    评论
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值