原标题:基于OpenCV实现手写体数字训练与识别
OpenCV实现手写体数字训练与识别
机器学习(ML)是OpenCV模块之一,对于常见的数字识别与英文字母识别都可以做到很高的识别率,完成这类应用的主要思想与方法是首选对训练图像数据完成预处理与特征提取,根据特征数据组成符合OpenCV要求的训练数据集与标记集,然后通过机器学习的KNN、SVM、ANN等方法完成训练,训练结束之后保存训练结果,对待检测的图像完成分割、二值化、ROI等操作之后,加载训练好的分类数据,就可以预言未知分类。
一:数据集
这里使用的数据集是mnist 手写体数字数据集、关于数据集的具体说明如下:
数据集名称
说明
train-images-idx3-ubyte.gz
训练图像28x28大小,6万张
train-labels-idx1-ubyte.gz
每张图像的数字标记,6万条
t10k-images-idx3-ubyte.gz
测试数据集、1万张图像28x28
t10k-labels-idx1-ubyte.gz
测试数据集标记,表示图像数字
上述数据集数据组成内部结构,图像是以灰度每个字节表示一个像素点的灰度值,图像的总数、宽与高的大小从开始位置读取,说明如下:
开始移位
类型
值
描述
0000
4字节int类型
0x00000803(2051)
魔数
0004
4字节int类型
60000
图像数目
0008
4字节int类型
28
图像高度
00012
4字节int类型
28
图像宽度
标记部分数据组成如下:
开始移位
类型
值
描述
0000
4字节int类型
0x00000801(2049)
魔数
0004
4字节int类型
60000
标记数目
0008
1字节ubyte
??
对应图像数字
0009
1字节ubyte
??
对应图像数字读取标记数据集读取图像数据集代码如下:
MatreadImages(intopt){
intidx=0;
ifstream file;
Matimg;
if(opt==0)
{
cout<
file.open("D:/vcprojects/images/mnist/train-images.idx3-ubyte",ios::binary);
}
else
{
cout<
file.open("D:/vcprojects/images/mnist/t10k-images.idx3-ubyte",ios::binary);
}
// check file
if(!file.is_open())
{
cout<
returnimg;
}
/*
byte 0 - 3 : Magic Number(Not to be used)
byte 4 - 7 : Total number of images in the dataset
byte 8 - 11 : rows of each image in the dataset
byte 12 - 15 : cols of each image in the dataset
*/
intmagic_number=0;
intnumber_of_images=0;
intheight=0;
intwidth=0;
file.read((char*)&magic_number,sizeof(magic_number));
magic_number=reverseDigit(magic_number);
file.read((char*)&number_of_images,sizeof(number_of_images));
number_of_images=reverseDigit(number_of_images);
file.read((char*)&height,sizeof(height));
height=reverseDigit(height);
file.read((char*)&width,sizeof(width));
width=reverseDigit(width);
Mattrain_images=Mat(number_of_images,height*width,CV_8UC1);
cout<
MatdigitImg=Mat::zeros(height,width,CV_8UC1);
for(inti=0;i
intindex=0;
for(intr=0;r
for(intc=0;c
unsignedchartemp=0;
file.read((char*)&temp,sizeof(temp));
index=r*width+c;
train_images.at(i,index)=(int)temp;
digitImg.at(r,c)=(int)temp;
}
}
if(i<100){
imwrite(format("D:/vcprojects/images/mnist/images/digit_%d.png",i),digitImg);
}
}
train_images.convertTo(train_images,CV_32FC1);
returntrain_images;
}
MatreadLabels(intopt){
intidx=0;
ifstream file;
Matimg;
if(opt==0)
{
cout<
file.open("D:/vcprojects/images/mnist/train-labels.idx1-ubyte");
}
else
{
cout<
file.open("D:/vcprojects/images/mnist/t10k-labels.idx1-ubyte");
}
// check file
if(!file.is_open())
{
cout<
returnimg;
}
/*
byte 0 - 3 : Magic Number(Not to be used)
byte 4 - 7 : Total number of labels in the dataset
*/
intmagic_number=0;
intnumber_of_labels=0;
file.read((char*)&magic_number,sizeof(magic_number));
magic_number=reverseDigit(magic_number);
file.read((char*)&number_of_labels,sizeof(number_of_labels));
number_of_labels=reverseDigit(number_of_labels);
cout<
Matlabels=Mat(number_of_labels,1,CV_8UC1);
for(longinti=0;i
{
unsignedchartemp=0;
file.read((char*)&temp,sizeof(temp));
//printf("temp : %dn ", temp);
labels.at(i,0)=temp;
}
labels.convertTo(labels,CV_32SC1);
returnlabels;
}二:训练与测试
对上述数据集,我们不使用提取特征方式,而是采用纯像素数据作为输入,分别使用KNN与SVM对数据集进行训练与测试,比较他们最终的识别率。
KNN方式
KNN是最简单的机器学习方法、主要是计算目标与模型之间的空间向量距离得到最终预测分类结果。训练的代码如下:
Ptr<:knearest>knn=ml::KNearest::create();
knn->setDefaultK(5);
knn->setIsClassifier(true);
Ptr<:traindata>tdata=ml::TrainData::create(train_images,ml::ROW_SAMPLE,train_labels);
knn->train(tdata);
测试代码如下:
voidtestMnist(){
//Ptr<:svm> svm = Algorithm::load<:svm>("D:/vcprojects/images/mnist/knn_knowledge.yml"); // SVM-POLY - 98%
Ptr<:knearest>knn=Algorithm::load<:knearest>("D:/vcprojects/images/mnist/knn_knowledge.yml");// KNN - 97%
Mattrain_images=readImages(1);
Mattrain_labels=readLabels(1);
printf("n read mnist test dataset successfully...n");
floattotal=train_images.rows;
floatcorrect=0;
Rectrect;
rect.x=0;
rect.height=1;
rect.width=(28*28);
for(inti=0;i
intactual=train_labels.at(i);
rect.y=i;
MatoneImage=train_images(rect);
//int digit = svm->predict(oneImage);
Matresult;
floatpredicted=knn->predict(oneImage,result);
intdigit=static_cast(predicted);
if(digit==actual){
correct++;
}
}
printf("n recognize rate : %.2f n",correct/total);
}
上述KNN基于纯像素方式的数据训练与测试准确率高达97%。
SVM方式
SVM的全称是支掌向量机,本来是用来对数据进行二分类的预测与分析、后来扩展到可以对数据进行回归与多分类预测与分析,主要是把数据映射到高维数据空间、把靠近高维数据的部分称为支掌向量(SV)。SVM根据使用的核不同、参数不同,可以得到不同的分类与预测结果、所以在OpenCV中使用SVM做分类的时候,尽量推荐大家使用train_auto方法来训练、但是trainauto运行时间一般都会比较久,有时候可能长达数天。 SVM的训练代码如下:
// 创建与初始化
Ptr<:ml::svm>svm=ml::SVM::create();
svm->setType(ml::SVM::C_SVC);
svm->setKernel(ml::SVM::POLY);
svm->setTermCriteria(TermCriteria(TermCriteria::MAX_ITER,100,1e-6));
svm->setGamma(3);
svm->setDegree(3);
// SVM训练mnist数据集分类
svm->train(train_images,ml::ROW_SAMPLE,train_labels);
关于参数设置部分、更加详细的可以参加OpenCV机器学习模块API说明,影响最终识别率的因素有很多,其中SVM训练收敛终止条件的最终循环数大小跟运行时间训练时间有关系,实验证明1e4/1e3的效果都比较好,我采用1e3,对测试数数据做预测、准确率达到98%。其测试代码跟上面KNN的极其类似。这里不再给出。
三:应用
训练好的数据保存在本地,初始化加载,使用对象的识别方法就可以预测分类、进行对象识别。当然这么做,还需要对输入的手写数字图像进行二值化、分割、调整等预处理之后才可以传入进行预测。完整的步骤如下:
以下是两个测试图像识别结果:
演示一截屏:
演示二截屏:
注意点:
最终要把图像Mat对象转换为CV_32FC1的灰度,使用resharp转换为行模式,调用svm->predict(Mat)即可返回预测结果。
善学者,假人之长以补其短返回搜狐,查看更多
责任编辑: