Python+OpenCV实现图像处理OCR手写数字识别原理

最新推荐文章于 2024-08-19 06:00:00 发布

TDD_0628

最新推荐文章于 2024-08-19 06:00:00 发布

阅读量4.4k

点赞数 6

分类专栏：图像处理文章标签： opencv python 图像识别计算机视觉 numpy

本文链接：https://blog.csdn.net/qq_24269643/article/details/107174315

版权

图像处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

一、基本原理
二、具体代码
- 1、训练与测试准确率代码
- 2、通过训练模型对某张500*500像素图片进行识别
附录
- 1、训练图片
- 2、测试图片

一、基本原理

1、载入训练图片：

读取OpenCV安装目录下手写图片合集(图片地址：opencv\sources\samples\data\digits.png)
若找不到可以查看本文附录中的图片进行下载使用

2、图片分割：

此图片大小为2000*1000 有5K个手写字符可以求得每个数字大约占有400个像素故将图像分割为 20 *20 的小块

3、灰度处理：

将分割的图片进行灰度化，使原本的RGB多维数据转化为二维灰度数据，方便处理

4、数据矩阵化：

将灰度图像转换为矩阵横向划分为100份，纵向划分50份

5、分配训练集与测试集：

分别分配50列，前50列为训练集，后50列为测试集

6、将训练测试集进行标定：

方便确定每个块内的数字具体是多少

7、创建KNN邻近：

训练模型

8、使用测试集：

检测模型准确率

二、具体代码

1、训练与测试准确率代码

img = cv.imread('D:\OpenCV\opencv\sources\samples\data\digits.png')
gray = cv.cvtColor(img,cv.COLOR_BGR2GRAY)
# 将图片进行分割成5000块横向100纵向50，分割为20*20
# 纵线分割np.hsplit(数组,份数)，横线分割np.vsplit(数组,份数)
cells = [np.hsplit(row,100) for row in np.vsplit(gray,50)]
# 使其成为一个Numpy数组，大小为(50,100,20,20)
x = np.array(cells)
# 准备train_data和test_data
train = x[:,:50].reshape(-1,400).astype(np.float32)
test = x[:,50:100].reshape(-1,400).astype(np.float32)

# 创建测试，训练标签
k = np.arange(10)
train_labels = np.repeat(k,250)[:,np.newaxis]
test_labels = train_labels.copy()
# 初始化KNN，训练数据，然后使用k = 1的测试数据对其进行测试
knn = cv.ml.KNearest_create()
knn.train(train,cv.ml.ROW_SAMPLE,train_labels)
ret,result,neighbours,dist = knn.findNearest(test,k=5)#test
# 检测分类的准确性
# 将结果与test_labels进行比较，检查哪个是错误的
print(result)
matches = result == test_labels
correct = np.count_nonzero(matches)
accuracy = correct*100.0/result.size
print(accuracy)

2、通过训练模型对某张500*500像素图片进行识别

import numpy as np
import cv2 as cv

# ------------------输入图片处理部分--------------------------------
test_img = cv.imread('./img/3.jpg')
# 缩放测试图片至20*20
height, width = test_img.shape[:2]
size = (int(width/25), int(height/25))
res = cv.resize(test_img,size, interpolation=cv.INTER_CUBIC)
# 图片进行灰度处理
res_gray = cv.cvtColor(res,cv.COLOR_BGR2GRAY)
# 生成等长的纯白255矩阵
test_array = np.array(res_gray)
g25 = np.ones(test_array.shape)
g25 = g25*255
# 相减将底色与字体实际灰度值调换（将底色变为黑色，字体变为白色）
test_array = g25-test_array
# 将多维矩阵转换为一维矩阵
input_test = test_array[:,:].reshape(-1,400).astype(np.float32)
print(input_test.size)
'''
# 显示输入图片(调试使用)
cv.imshow('result_img',res)
cv.waitKey(0)
'''
# ------------------输入图片处理完成--------------------------------

img = cv.imread('D:\OpenCV\opencv\sources\samples\data\digits.png')
gray = cv.cvtColor(img,cv.COLOR_BGR2GRAY)
# 将图片进行分割成5000块横向100纵向50，分割为20*20
# 纵线分割np.hsplit(数组,份数)，横线分割np.vsplit(数组,份数)
cells = [np.hsplit(row,100) for row in np.vsplit(gray,50)]
# 使其成为一个Numpy数组，大小为(50,100,20,20)
x = np.array(cells)
# 准备train_data和test_data
train = x[:,:50].reshape(-1,400).astype(np.float32)
test = x[:,50:100].reshape(-1,400).astype(np.float32)

# 创建测试，训练标签
k = np.arange(10)
train_labels = np.repeat(k,250)[:,np.newaxis]
test_labels = train_labels.copy()
# 初始化KNN，训练数据，然后使用k = 1的测试数据对其进行测试
knn = cv.ml.KNearest_create()
knn.train(train,cv.ml.ROW_SAMPLE,train_labels)
ret,result,neighbours,dist = knn.findNearest(input_test,k=5)#test
# 结果输出
print(result)