摘要:
自然场景下的文字检测与识别技术是计算机视觉领域的研究热点,大量的研究人员对该方向进行了长期的探索,自然场景中的文字提取技术研究成果可以应用到智能城市交通系统,盲人视觉辅助系统,无人驾驶技术和工业自动化系统等领域.与传统的光学字符提取技术不同,自然场景中包含了丰富的场景信息,自然场景中的文字提取面临着字体多变,背景复杂,图像质量低等诸多难点,有效提高场景文字提取的准确率具有重要的实际应用价值.本文论述了自然场景文字检测与识别技术的研究背景与意义,对自然场景文字检测与识别技术的研究现状进行了描述和分析,重点对场景文字检测与识别算法进行了研究,设计了基于GPU的场景文字检测算法和基于深度学习的场景文字识别算法,独立开发了图像视频处理平台并对场景文字检测与识别算法进行了验证.本文主要做了以下工作:1.在场景文字检测方面,本文论述了已有的笔画宽度变换算法,并对算法存在的问题进行了分析,改进了传统的笔画宽度算法,提高了算法的检测效果.为了提升改进后算法的性能,设计了基于GPU的笔画宽度检测算法,采用了多种优化策略对算法的性能进行了逐步优化,最终算法的加速比超过了742倍;2.在文字识别方面,本文对已有的卷积神经网络进行了研究,将AlexNet网络应用在场景字符识别中,改进了已有的Alex Net模型,采用样本扩展策略扩充了场景文字数据集.利用Alex Net网络的特征提取能力对大量的数据样本进行了训练学习,并结合支持向量机的方法对提取的样本特征进行分类,改进后的AlexNet模型识别率得到了提升,识别率达到了95.7%;3.结合本文对场景文字的检测算法和识别算法的研究成果,设计开发了基于OpenCV的图像视频处理平台,该平台以DirectShow插件作为视频处理接口,实现了视频中的场景文字检测与识别,并将本文提出的算法在电影视频字幕提取中进行了测试和验证.实验证明,本文提出的场景文字检测算法和识别算法有较好的鲁棒性,算法能够实时处理自然场景视频,能自动提取场景视频中的文字信息,同时,本文提出的场景文字提取算法也能够应用在电影字幕的提取中,算法能够准确定位电影视频中的字幕位置,能够对字幕进行识别和标注,本文提出的算法有较强的研究和应用价值.
展开