基于深度学习的图像文本切分与识别

**计算机系统的介绍

一 概要

  自从1929年德国科学家提出OCR的概念,各个国家就开始对此展开研究,OCR全称Optical Character Recognition,即光学字符识别。一开始专家们并没有对字母、单词、文字、字形等进行研究,就像电话还没有被发明之前一样,人们觉得这是天方夜谭,研究要从基础开始,因此,但是的人们是从最简单的10个数字(0-9)开始的。
  由于历史原因,中文识别起步较晚,并且由于汉字字形与由字母组成的英文、法文等不同,汉字字形各异,组织结构复杂,机器寻求其中的规律比较困难,常常会因为偏旁部首出现切分错误,要精准地识别并不容易,可以说是相当有挑战性的。随着信息化水平不断的提升,图像时代已经越来越近,这是一件必然的事情,当我们拥有足够的科技,足够的能力,印刷文化将会被新的视觉文化所取代,识别技术的发展势不可挡,我们能很明显地感受到身边相关的技术,百度、谷歌等都有相关应用。
  在字符识别方面,可选择的有谷歌Tesseract、百度API、传统的字符特征提取、模板匹配法以及基于深度学习下的CNN字符识别。本文使用模板匹配法以及基于深度学习下的CNN字符识别相互结合的方法。

关键词:OCR 中文文本识别 卷积神经网络 文本检测

二、绪论

1.1研究背景及意义

  生活中常常有一些时候,需要将手上的图像资料重新整理一遍,或者要把纸质材料输入计算机存储,每当这个时候,我们会觉得如果能够把手上的图像资料或者纸质材料通过某种手段、媒介,一下子就能由电子产品输出,而不是逐字逐句地手抄或者手动输出打印,那么就会方便很多,节省了大量地时间,也能减轻眼睛的负担,省心省力。随着科学技术的不断进步,人们的生活质量也而稳步上升,多媒体信息成为信息传递重中之重,图像信息更是因为丰富的信息内容和直观的展现方式而具有高度可研究价值。随着科技进步,我们能很明显地感受到身边相关的技术,百度、谷歌等都有相关应用。
  我们如今离图像时代已经越来越近,这是一件必然的事情,当我们拥有足够的科技,足够的能力,印刷文化将会被新的视觉文化所取代。科技是为了人类服务的,从这方面出发,这就对识别技术提出了更高的要求。举个例子,如果我们高速路的收费站采用全自动收费,那就意味着扫描识别的结果要清晰,处理速度要快,识别率要非常高,否则就会出错,会由于速度不够快而引起用户不满。因此,OCR技术在我们的生活具有重要的意义。
  现如今OCR技术已经有了显著的成果,在多个领域都有其用武之地,包括邮政编码的自动识别,政府交通部门的驾驶证自动检测,公民身份证的只能输入识别检测以及现如今的5G技术融入汽车自动驾驶,医疗上对X射线结果的自动诊断,学校的自动评卷,由此可见文本识别的在生活中无处不在且相当重要,然而在同时,因为汉字数量大,字体拥有形态种类多样,尤其笔画众多,字形结构极端复杂多变,这些使得对汉字图像文的识别更加困难。
  科学技术在发展,生产力在提高,人的需求也在增加,如今评判一个OCR产品的优劣也不仅仅是识别精准度,更包括识别速度、拒识率、用户界面的友好性以及产品的易用程度、稳定程度等等。通过结合深度学习技术,对模糊不清的低质量图像的识别是可以实现的。

三、基础理论及相关技术

2.1 卷积和人工神经网络

  在泛函分析中,卷积、旋积或摺积是通过两个函数f 和g 生成第三个函数的一种数学算子,表征函数f 与g经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。卷积运算是卷积神经网络中的核心,相当于图像处理中的“滤波器运算”。 对于一个 m x n 大小的卷积核

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值