matlab实现MSER（最大极值稳定区域）来进行文本定位

最新推荐文章于 2021-08-22 11:25:50 发布

jamsShadow

最新推荐文章于 2021-08-22 11:25:50 发布

阅读量8.2k

点赞数 5

分类专栏：机器学习文章标签： mser 自然场景文本定位 matlab 最大极值稳定区域

本文链接：https://blog.csdn.net/H2008066215019910120/article/details/47735157

版权

一、自然场景文本定位综述场景图像中文本占据的范围一般都较小，图像中存在着大范围的非文本区域。因此，场景图像文本定位作为一个独立步骤越来越受到重视。这包括从最先的CD和杂志封面文本定位到智能交通系统中的车牌定位、视频中的字幕提取，再到限制条件少，复杂背景下的场景文本定位。与此同时文本定位算法的鲁棒性越来越高，适用的范围也越来越广泛。文本定位的方式一般可以分为三种，基于连通域的、...

摘要由CSDN通过智能技术生成

一、自然场景文本定位综述

场景图像中文本占据的范围一般都较小，图像中存在着大范围的非文本区域。因此，场景图像文本定位作为一个独立步骤越来越受到重视。这包括从最先的CD和杂志封面文本定位到智能交通系统中的车牌定位、视频中的字幕提取，再到限制条件少，复杂背景下的场景文本定位。与此同时文本定位算法的鲁棒性越来越高，适用的范围也越来越广泛。文本定位的方式一般可以分为三种，基于连通域的、基于学习的和两者结合的方式。基于连通域的流程一般是首先提取候选文本区域，然后采用先验信息滤除部分非文本区域，最后根据候选文本字符间的关系构造文本词。基于学习的方式关键在于两个方面：一是不同特征提取方法的使用如纹理、小波、笔画等。二是分类器的使用如支持向量机(Support Vector Machine，SVM)，AdaBoost等。连通域和学习结合的方式一般在提取阶段采用连通域的方式，但是滤除阶段是通过训练样本学习分类器来实现非文本的滤除。

1. 基于连通域的方式

　　连通域分析是在场景文本图像二值化后进行的，所以开始的研究集中在场景文本图像的预处理、增强和二值化上。基于连通域的方式很少需要在多尺度上进行操作，所以运算时间较快，但存在需要大量的先验信息来滤除文本区域的弊端。

2. 基于学习的方式

　　基于学习的方式一般流程是先将图像分割成一个个窗口，提取窗口中图像的特征，然后利用一个训练好的分类器来将窗口分成文本和非文本，最后将文本区域连成一个文本行。基于学习的方式，计算量大，一般都在多尺度上处理，而且需要先准备好训练的数据来训练分类器。

3. 连通域和学习结合的方式

　　这一方式一般都是分为两个阶段，阶段一是提取候选的连通区域，这个阶段一般采用的是连通域分析的方法。阶段二是文本区域和非文本区域的分类，这一阶段一般是采用分类器的方式实现的。两者结合的方式虽然没有众多的参数设置，但还是无法摆脱训练数据的限制。

二、利用MSER来进行文本区域定位

　　最大极值稳定区域是由Matas等人提出的一种仿射特征区域提取算法。其提取的区域内部灰度几乎不变但是和背景的对比十分强烈，并且该区域能够在多重阈值下保持形状不变。一般文本内部的灰度变化都比较小，而文本和背景的灰度对比度则比较大，符合最大极值稳定区域的特性，因此利用这一特性可以提取颜色聚类无法得到的部分连通域。

最大极值稳定区域先将图像转换成灰度图像，然后在一定的阈值下将图像转换成一系列的二值图像。随着亮度阈值的增加或者减少，区域不断的出现、生长和合并。两个不同阈值间的区域变化不超过一定阈值就能够被认为是稳定的。最大极值稳定区域的数学定义：定义图像为区域到灰度的映射

最低0.47元/天解锁文章

jamsShadow

关注

5
点赞
踩
15

收藏

觉得还不错? 一键收藏
14
评论
matlab实现MSER（最大极值稳定区域）来进行文本定位

一、自然场景文本定位综述场景图像中文本占据的范围一般都较小，图像中存在着大范围的非文本区域。因此，场景图像文本定位作为一个独立步骤越来越受到重视。这包括从最先的CD和杂志封面文本定位到智能交通系统中的车牌定位、视频中的字幕提取，再到限制条件少，复杂背景下的场景文本定位。与此同时文本定位算法的鲁棒性越来越高，适用的范围也越来越广泛。文本定位的方式一般可以分为三种，基于连通域的、...
复制链接

扫一扫

专栏目录