基于 MATLAB 的图像中汉字识别

数字图像处理课程论文–基于 MATLAB 的图像中汉字识别

说明:

算法一是最开始做的版本,算法二是运用贝叶斯公式法分类器的改进版本。

前言

汉字历史悠久,流传四海,是我们书面交流的绝对主体。自蔡
伦改进纸张以来,两千年的时间里,汉字最重要的载体是纤维纸。
毫无疑问,较之前的龟甲竹简而言,纸张更便宜,更轻便,更适合
传播。纤维纸结合印刷术,构成了知识文化传播的主要方式。
然而步入新世纪后,我们有了电脑,有了电子书,有了电子
笔,最重要的,我们有了发达的互联网。技术革命正在快速蚕食纸
张原有的优势地位,纤维纸竟有了淘汰的可能。
但是,至少到目前为止,传统方式下的书籍仍然承载着巨大的
信息流量,纸张对于我们依旧不可或缺,这便需要有能够把信息在
两者间流转的方法。
我们组本次设计的内容便是在探讨一种传统书籍内容转移到电
子文档的方法——汉字识别

1 实验目标和实验方法

1.实验目标:通过设计,能够有效地识别出图片中的汉字。
2.实验平台:MATLAB

2 实验原理(具体原理略)

2.1 图像二值化

2.2 开操作

2.3 图像分割

2.4 贝叶斯公式法分类器

3 实验方案(总体流程图、具体步骤等)

1.1 算法一流程图

1.1.1 创建字库

在这里插入图片描述

1.1.2 识别汉字

在这里插入图片描述

1.1.3 提取字库特征向量

在这里插入图片描述

1.2 算法一步骤

①选择一段写在纸张上的文字,拍照截图
②把带有汉字的图像处理成标准格式。最好的结果是只留有汉字部分而切除其余空白,并清 理斑点修补线条。
③为了每次单独识别一个汉字,将每个汉字都分离切割出来,成为一个待处理的方块图像组
④对比汉字库与一个个分离出的汉字方块图像,找到最相似的结果(汉字库同样是分离出的 汉字方块图像。在实验前预先输入标准汉字图像,并输入每一个汉字图像代表汉字,的程序 会自动分割出一个个汉字方块图像,并按顺序存放于库文件夹中。 )
⑤输出对比出的最相似结果,并附上原图像

1.3 算法二流程图

1.3.1 提取字库特征向量

在这里插入图片描述

1.3.2 识别汉字

在这里插入图片描述

1.4 算法二步骤

(1) 将一个手写的字(假设这个字为“数”)的大方块切割为 10*10 个小方块。每一个 小方块都包含了一个字的一部分信息。
开始
输入带汉字的 图像
预处理阶段 (修补线段、 去除噪点)
切割字块
特征提取
贝叶斯分类器 进行比较
输出结果
结束
12 / 34

(2) 每一部分的小方块里的黑像素与白像素的数量之比为小方块所蕴含的信息; (3) 设立一个阈值 K。如果一个小方块内,黑像素的数量大于 K,则令小方块状态为 1, 表示有笔画经过;否则为 0,表示没有笔画经过; (4) 现在,我们得到了一个字的 100 个小方块的状态值,将状态值存入一个数组 shu[i],0<=i<=100; (5) 设立数据库。将足够多的训练用字(全是“数”)的图片进行(1)~(4)的处理步 骤,于是,我们改造之前的数组,得到一个新二维数组 shu[j][i]作为数据库,j 为训练 图片序号; (6) 利用数据库,我们可以统计出“数”字的笔画经过某一个小方块的概率,并记录下 来; (7) 我们又通过重复(1)~(6)的步骤,将其他的汉字(非“数”)也求出概率来; (8) 到此,我们建立了一个的数据库,这个数据库里包含了不同汉字的笔画经过不同位 置的概率,将其作为特征向量,如果想给汉字增加特征向量,重复以上步骤即可。 (9) 输入汉字 X 试图识别。重复(1)~(4),得到一个数组。这个数组内包含有 X 的 笔画信息供以比对,作为特征向量; (10) 接下来,进行笔画信息比对。利用贝叶斯分析,计算出在这种笔画信息下是某一种 字的可能性; (11) 利用贝叶斯分类器将数据库中特征向量比对一遍,找出最有可能的字即为结果。

4 实验结果

4.1 算法一实验结果

1.通过标准汉字创建汉字库
在这里插入图片描述
2.将图片中的汉字与汉字库对比来识别图片中的汉字
在这里插入图片描述
3.继续创建其他的汉字库,尝试使用较为模糊的图片 在这里插入图片描述
4.识别
在这里插入图片描述
5.继续创建其他的汉字库,尝试更为模糊的图片
6.识别,发现识别出现错误。
在这里插入图片描述
7.通过查找原因发现,我们使用的字体(宋体)与识别图像相差过大,我们使用的字体如下:
在这里插入图片描述
8.通过添加另一种汉字字体(黑体),新添加的汉字字体如下:
在这里插入图片描述
9.识别,识别正确。

在这里插入图片描述

4.2 算法二(改进后)实验结果

特征提取加贝叶斯分类器结果: 生成的字库如下,其中包含了三种手写字体,“数字图像处理期末考试作业”12 个字中的每 一个字有 7 个特征向量。保存在结构体数组 pattern 中,pattern 包含有 12 个元素,每一个 元素包含三种属性,分别为字的名字,字的特征向量个数,以及字的特征向量。 在这里插入图片描述
pattern 具体情况如下: 在这里插入图片描述
1、识别普通文字,蓝色的字为识别结果,图像为待识别的图像,可见能完全识别出来
在这里插入图片描述
2、识别不同大小的字,不同大小的字也可以识别出来
在这里插入图片描述
3、识别不同字体,不同大小的字(有的字的字体与字库的不一样),可以看见识别效果还 是不错的。
在这里插入图片描述
在这里插入图片描述
4、识别手写字体,新写了一个,可以看见识别还是比较准确,除了第三张识别有点错误之 外。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考文献

[1]邹浩,余龙,邹勇博,刘宇童,和振乔,李少梅.基于MATLAB的图片中文字的提取及识别[J].西安电子科技大学+电子工程学院,西安,710126.
[2]李隆烨.基于 MATLAB 的贝叶斯分类器设计[J].科技传播,2019,11(20):116117.

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/alongiii/article/details/106790444
数字图像处理–基于 MATLAB 的图像中汉字识别.rar
代码下载链接:https://download.csdn.net/download/alongiii/14020334

  • 35
    点赞
  • 348
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 44
    评论
Matlab是一款非常优秀的图像处理软件,其图像识别功能也非常强大。下面详细介绍一下Matlab图像识别的相关内容。 一、Matlab图像识别的基本原理 Matlab图像识别的基本原理是通过对图像进行数字处理和分析,从提取出有用的信息,识别图像的对象。这个过程可以分为以下几步: 1. 图像预处理:包括图像的二值化、去噪声、平滑等处理,使得图像更加清晰,便于后续处理。 2. 特征提取:通过对图像的特征进行提取和描述,得到图像的特征向量,从而对图像进行区分和分类。 3. 分类器设计:根据图像的特征向量,建立分类器模型,用于对图像进行分类。 4. 图像识别:将待识别图像经过预处理和特征提取后,送入分类器进行分类,得到图像识别结果。 二、Matlab图像识别的实现步骤 1. 导入图像:使用imread函数可以将图像导入Matlab。 2. 图像预处理:对图像进行二值化、去噪声、平滑等预处理操作。 3. 特征提取:根据图像的特征进行提取和描述,得到图像的特征向量,可以使用灰度共生矩阵、图像梯度等方法进行特征提取。 4. 分类器设计:根据图像的特征向量,建立分类器模型,可以使用支持向量机、神经网络等方法进行分类器设计。 5. 图像识别:将待识别图像经过预处理和特征提取后,送入分类器进行分类,得到图像识别结果。 三、常用的Matlab图像识别算法 1. 基于颜色的图像识别:通过对图像的颜色信息进行提取和分析,实现图像识别的过程。 2. 基于纹理的图像识别:通过对图像的纹理信息进行提取和分析,实现图像识别的过程。 3. 基于形状的图像识别:通过对图像的形状信息进行提取和分析,实现图像识别的过程。 4. 基于特征的图像识别:通过对图像的特征信息进行提取和分析,实现图像识别的过程。 四、Matlab图像识别的应用领域 1. 人脸识别:通过对人脸图像进行识别,实现人脸识别的过程。 2. 车辆识别:通过对车辆图像进行识别,实现车辆识别的过程。 3. 文字识别:通过对文字图像进行识别,实现文字识别的过程。 4. 医学图像识别:通过对医学图像进行识别,实现疾病诊断和治疗的过程。 五、总结 Matlab图像识别是一项非常重要的技术,在很多领域都有广泛的应用。通过对图像进行预处理、特征提取、分类器设计和图像识别等步骤,可以实现对图像的自动识别和分类。同时,Matlab还提供了很多图像处理和分析的工具,方便用户进行图像识别和分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 44
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

alongiii

万分感谢!!!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值