自然文本识别

自然文本的特征

自然特征简要说明
文字颜色特定区域的文本行具有统一的颜色,但也有一些颜色渐变的情况,同事场景中存在很多与文字颜色相同的区域
文字字体场景中的文字字体在局部区域是一致的,但有时也会选各种各样的字体
文字亮度为了方便阅读,场景文字与背景区域一般存在较强的对比度
纹理轮廓文字区域存在较多的笔画,有较多的纹理信息和强烈的边缘轮廓
几何特征文字的大小、间距、排列方向,以及文字区域的面积、高宽比等信息
统计特征简要说明
频谱图像经过各种频率域的变换后得到的特征图像,包括:小波变换、傅里叶变换、离散余弦变换、Gabor变换等
直方图通过统计图像中的行列目标像素的个数和灰度值,达到对文字区域进行分割和定位的目的
均值代表了特征图像中某一局部区域的平均灰度大小,同样能通过阈值限制来去除噪声、确定目标区域
方差方差是指在特征图中某一局部区域的灰度变化率大小,也可以通过阈值限制去除噪声,确定目标区域

自然文本定位识别面对的问题

问题简要说明
文本的多样性表现在文本的字体、尺寸、亮度、对比度、排列方式等
背景的复杂性表现在文本颜色和背景相似,被栅栏、树木等遮挡,砖头、窗户等类似文本的元素
其他光照不均匀、遮挡、拍摄时抖动等

主要流程和方法

原始图像
图像预处理
文本定位
文本识别
后处理
结果

文本定位

提取候选区域方法说明优缺点
基于纹理使用卷积核提取特征,根据提取的特征对该区域进行字符和非字符的分类,从而获取到候选区域,最后使用更加高级的文本特征滤除噪声,获取文本定位的结果
通过Gabor变化、Gaussian变换、空间方差、小波分解和离散余弦等获得文本的纹理特征
可以去除噪声带来的影响、但由于采用滑动窗穷尽图像搜索极大地增加了复杂性
得到的字符不完整、给后续的识别工作也造成困难
基于边缘首先对图像进行边缘检测,再经过平滑处理和形态学运算得到候选区域,然后提取文本的特征信息,使用训练好的分类器对候选区域验证,常用Sobel边缘算子、小波变换提取边缘信息对于具有明显边缘的文字区域具有良好的检测效果,尤其对背景简单的图像文本具有较强的鲁棒性;对于遮挡或者曝光、模糊的文本,边缘特征会出现断裂或粘连现象,该方法的检测效果急剧下降
基于特征区域通过分析文本的颜色聚类或者亮度信息,采用区域聚类分析、颜色量化、直方图分割等计数选择图像中的连通域作为候选区域,在对文本候选区域进行大小、宽高比等限制,最后使用训练好的分类器对候选区域进行验证,确定文本区域能够定位出大部分文本区域,并且对图像旋转、仿射形变等具有良好的鲁棒性,是图像文本定会使用最广泛的方法

文本识别

方法说明优缺点
模板匹配识别提取模板数据,建立特征模板,将待匹配的图像和模板数据进行匹配运算得到一个相关值,通过分析这一相关值从而得到结果实现难度小,对于单一无噪声污染的背景,字符图像的识别率较高
对于背景复杂噪声较多的图像,识别能力明显降低
字符特征通过提取字符统计特征和结构特征,然后根据所提取特征的相似度进行分类判别提取字符特征较为复杂,对于噪声较少以及复杂的字符具有良好的识别能力,在实际应用具有一定的适应性和稳定性
神经网络对大量文字图像样本进行学习训练,通过不断地学习来修正神经网络各层的连接权值从而获取到数据集的更复杂的特征,提升分类的准确性结构简单、训练参数少和适应强等特点,可以将原始图像直接作为网络的输入,避免了传统算法中的特征提取的过程
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页