基于连通域快速文字图像分割算法
基于连通域快速文字图像分割算法
摘 要:针对文本图像中的文字难以提取分割的问题,文章提出了一种基于连通域的算法。算法通过连通域阀值分析,将文本块联通,继而将文字成功分割。实验结果表明本算法能快速准确地分割文字。
关键词:文本图像;连通域;文字分割
中图分类号:TP391.4
随着WWW网页中图片的大量使用,以及图像、视频数据库的广泛应用,使得图像成为另一种重要的信息载体。Loprest指出,互联网上许多文字是嵌入在图像中的,而且大部分文字并没有在HTML网页的其他地方重复出现。[1]如何经过计算机处理从这些图片中重新获取原来的文字信息则成了一个难题。为了解决这一问题,需要对图片进行一定的处理。图像灰度化、图像二值化和单字域扩充等。将彩色图像转化为灰度图像的过程称为图像灰度化。选取合适的分割阀值是图像二值化的重要步骤,针对图像像素的阈值选取方法可分为全局阈值算法和局部阈值算法两类。全局阈值算法是根据整幅图像选取一个固定的阈值将图像二值化。常用的全局阈值算法有大律法等。局部阀值算法是将图像划分为若干个子图像再确定其阀值。常用的局部阀值法有Bemsen算法等。[2]
本算法通过灰度化将普通图像转化为灰度图片,将经过灰度化的图片进行二值化处理,此时图片呈现出明显的只有黑和白的视觉效果。将颜色相同且相邻的黑白区域相连使文字块连通,将图片中的文字分割。
1 连通域文字分割的特征分析
1.1 概念介绍
(1)连通域。连通域是数学中最基本的一个概念,一般定义形式为:空间E(有限维的或是无穷维的)中区域D称为单连通的,如果任何一条属于D的简单连续闭曲线,都能连续收缩到D中预先指定的任何一点,在收缩过程中曲线始终是闭的、且完