使用opencv的ML模块中的ANN_MLP训练二分类检测睁眼和闭眼的5层网络
注释写的很清楚,你跟着注释写,一样可以写出来
话不多说直接上代码:
#include "opencv2/opencv.hpp"
#include "opencv2/ml.hpp"
#include<iostream>
using namespace std;
using namespace cv;
using namespace ml;
void predict_mat(Mat img, Ptr<ANN_MLP>net)//预测函数
{
imshow("text", img);//检测图片
Mat dst,output;
resize(img, dst, Size(8, 8));//裁剪8 ×8的大小
normalize(dst, dst, 0, 255, NORM_MINMAX);//0-255范围
Mat_<float> testMat(1, 64);//将8*8=64个像素装入这个一维向量中
for (int i = 0; i < 64; i++)
{
testMat.at<float>(0, i) = (float)dst.data[i];
}
//使用训练好的MLP model预测测试图像
float a = NULL;
a= net->predict(testMat, output);
// cout <<"0是闭眼,1是睁眼" << endl << "预测值:" << a << endl;
if (a==0)
{
cout << "测试结果:闭眼" << endl ;
}
else//o是闭眼,1是睁眼
{
cout << "测试结果:睁眼" << endl ;
}
}
int main()
{
const int img_W = 8;
const int img_H = 8;
const int img_class = 2;
const int img_sum = 400;
float training_data[img_class * img_sum][img_W * img_H] = { {0} };//把图像的每个像素装入二维数组的每一行中,其中每一行就是一幅图片
float labels[img_class * img_sum][img_class] = { {0} };//标签也要是二维数组,它的每一行都是一幅图片的标签值
//图片数据装入
Mat src, resize_img, train_img;
for (int i=0;i< img_class * img_sum;i++)
{
//读入图片并处理
string img_path= format("C:/Users/xiao-xu/Pictures/ANN_IMG/%d.jpg", i);//图片地址
src = imread(img_path,CV_32FC1);//读入图片
resize(src, resize_img, Size(img_W, img_H));//裁剪8 ×8的大小
normalize(resize_img, train_img, 0, 255, NORM_MINMAX);//归一化0-255范围
//装入数组
for (int j=0;j< img_W * img_H;j++)
{
training_data[i][j] = (float)train_img.data[j];//读入二维数组,数组的每一行都是一幅图片的数据
}
}
//便签 0-399为0,400-799为1(o是闭眼,1是睁眼)
for (int i = 0; i < img_class * img_sum; i++)
{
for (int j=0;j<img_class;j++)
{
if (i <= 399)
{
labels[i][j] = 0;
}
else
{
labels[i][j] = 1;
}
}
}
//数组转化成mat类型
Mat labels_Mat(img_class * img_sum, img_class, CV_32FC1, labels);
Mat trainingDataMat(img_class * img_sum, img_W * img_H, CV_32FC1, training_data);
//建立模型
Ptr<ANN_MLP> Net_5 = ANN_MLP::create();
// 共5层:输入层加3个隐藏层加一个输出层 (Mat_<int>(1, 5),输入层神经元为8*8、隐藏层第一层神经元为128第二层神经元为128第三层神经元为64,输出层神经元为2(img_class)
Mat layerSizes = (Mat_<int>(1, 5) << img_W * img_H, 128, 128, 64, img_class);
//设置各层的神经元个数
Net_5->setLayerSizes(layerSizes);
// Net_5 模型创建和参数设置
Net_5->setTrainMethod(ml::ANN_MLP::BACKPROP, 0.01, 0.9);//MLP的训练方法(ANN_MLP_TrainParams::BACKPROP-反向传播算法或ANN_MLP_TrainParams::RPROP -RPROP算法)(0.01, 0.9这2个参数很重要)
Net_5->setActivationFunction(ml::ANN_MLP::SIGMOID_SYM); //激活函数
Net_5->setTermCriteria(TermCriteria(TermCriteria::MAX_ITER | TermCriteria::EPS, 10000, 0.0001));//训练算法的终止条件。可以指定最大迭代次数(maxCount)或迭代之间的误差变化大小(epsilon)
//开始训练模型
Ptr<TrainData> trainData = TrainData::create(trainingDataMat, ROW_SAMPLE, labels_Mat);
Net_5->train(trainData);
//保存训练结果
//Net_5->save("H:\\net5xml\\Net_5.xml");
//预测图像
Mat text = imread("C:\\Users\\xiao-xu\\Pictures\\ANN_IMG\\1128.jpg", CV_32FC1);//这儿有问题,如果第二个参数改变预测结果会不准
predict_mat(text, Net_5);
waitKey(0);
return 0;
}
//到这里闭眼和睁眼的检测算是完成了
总结:
原来我是想训练1600张图片的,但是图片太多使用静态内存结构就会报栈溢出,所有我减少了800张,训练效果嘛,还可以吧!这个模块除了二分类,还可以增加其他类别,如果类别多,检测的图片集也大,建议使用动态内存结构。
检测效果: