本文按照 案例-分析-代码-原理 四段式进行介绍,为便于有一定理论基础的童鞋进行学习,将原理以链接其他博客的形式给出,有兴趣的童鞋可以跳转进行学习和推敲。
【案例介绍】利用GRNN/PNN建立鸢尾花分类模型
鸢尾花具有很多亚类,需要根据其根长、叶宽等特征对其进行分类。本实验采取鸢尾花的4个特征,对其进行分类,结果分为3类别。其数据集结构主要如下:
鸢尾花数据集结构 编号 类别/说明 1~50 类别A,标签为1 51~100 类别B,标签为2 101~150 类别C,标签为3 备注 特征:150*4 类别:150*1(总计150条数据,每条数据4个特征,类别为3类) 根据以上数据集,确定训练集和测试集,误差取为每次对测试集30条数据进行测试时未能正确分类数据/每次测试数据(30条),分别建立GRNN与PNN算法,并对原始数据的四个特征进行排列组合,例如,仅考虑特征1,仅考虑特征2,仅考虑特征3,仅考虑特征4,考虑特征1、2,考虑特征1、3等,可以通过结果对比分析各个特征对判断结果所占的权重。关于这类问题,童鞋们可以参考主成分分析(PCA)及其他降维算法,原理和目标与这种处理相类似,旨在通过更低的维度(更少的特征)依旧能描述或判断问题的结果。同时,还给出两种方法的处理时间,进行对比,且这一结果也可以从GRNN和PNN算法的理论描述中得以证明,具体参阅第四部分的原理介绍部分。
【代码分析】Matlab GRNN/PNN建立及测试代码
%% I. 清空环境变量
clear all
clc%% II. 训练集/测试集产生
%%
% 1. 导入数据
load iris_data.mat%%
% 2 随机产生训练集和测试集
P_train = [];
T_train = [];
P_test = [];
T_test = [];
for i = 1:3
temp_input = features((i-1)*50+1:i*50,:);
temp_output = classes((i-1)*50+1:i*50,:);
n = randperm(50);
% 训练集——120个样本
P_train = [P_train temp_input(n(1:40),:)'];
T_train = [T_train temp_output(n(1:40),:)'];
% 测试集——30个样本
P_test = [P_test temp_input(n(41:50),:)'];
T_test = [T_test temp_output(n(41:50),:)'];
end%% III. 模型建立
result_grnn = [];
result_pnn = [];
time_grnn = [];
time_pnn = [];
for i = 1:4
for j = i:4
p_train = P_train(i:j,:);
p_test = P_test(i:j,:);
%%
% 1. GRNN创建及仿真测试
t = cputime;
% 创建网络
net_grnn = newgrnn(p_train,T_train);
% 仿真测试
t_sim_grnn = sim(net_grnn,p_test);
T_sim_grnn = round(t_sim_grnn);
t = cputime - t;
time_grnn = [time_grnn t];
result_grnn = [result_grnn T_sim_grnn'];
%%
% 2. PNN创建及仿真测试
t = cputime;
Tc_train = ind2vec(T_train);
% 创建网络
net_pnn = newpnn(p_train,Tc_train);
% 仿真测试
Tc_test = ind2vec(T_test);
t_sim_pnn = sim(net_pnn,p_test);
T_sim_pnn = vec2ind(t_sim_pnn);
t = cputime - t;
time_pnn = [time_pnn t];
result_pnn = [result_pnn T_sim_pnn'];
end
end%% IV. 性能评价
%%
% 1. 正确率accuracy
accuracy_grnn = [];
accuracy_pnn = [];
time = [];
for i = 1:10
accuracy_1 = length(find(result_grnn(:,i) == T_test'))/length(T_test);
accuracy_2 = length(find(result_pnn(:,i) == T_test'))/length(T_test);
accuracy_grnn = [accuracy_grnn accuracy_1];
accuracy_pnn = [accuracy_pnn accuracy_2];
end%%
% 2. 结果对比
result = [T_test' result_grnn result_pnn]
accuracy = [accuracy_grnn;accuracy_pnn]
time = [time_grnn;time_pnn]%% V. 绘图
figure(1)
plot(1:30,T_test,'bo',1:30,result_grnn(:,4),'r-*',1:30,result_pnn(:,4),'k:^')
grid on
xlabel('测试集样本编号')
ylabel('测试集样本类别')
string = {'测试集预测结果对比(GRNN vs PNN)';['正确率:' num2str(accuracy_grnn(4)*100) '%(GRNN) vs ' num2str(accuracy_pnn(4)*100) '%(PNN)']};
title(string)
legend('真实值','GRNN预测值','PNN预测值')
figure(2)
plot(1:10,accuracy(1,:),'r-*',1:10,accuracy(2,:),'b:o')
grid on
xlabel('模型编号')
ylabel('测试集正确率')
title('10个模型的测试集正确率对比(GRNN vs PNN)')
legend('GRNN','PNN')
figure(3)
plot(1:10,time(1,:),'r-*',1:10,time(2,:),'b:o')
grid on
xlabel('模型编号')
ylabel('运行时间(s)')
title('10个模型的运行时间对比(GRNN vs PNN)')
legend('GRNN','PNN')
测试集预测结果如下:
测试集预测正确率对比(取10次):
两种算法所用时间对比:
说明:第1次Matlab读取内存等占用资源较多,因此时间较长,在第3次后趋于稳定;从图中可以看出,PNN算法一般处理速度稍快。读者可以思考,若采用BP神经网络,用时与此两种算法对比如何?(BP算法所有神经元之间的权值统一同步调整,而本文的两种算法仅在隐层和输出层间具有权值阵,因此BP算法处理速度慢,具体可参见三者的原理)。
总结:
- 主要算法在newgrnn.m与newpnn.m中,读者可以自己查阅。
- newpnn算法中,需要将训练数据转化为稀疏矩阵形式进行计算。
【附件下载】 含数据集与Matlab源码等文件下载(百度云)
1、通过百度云进行下载:
链接:https://pan.baidu.com/s/15cG1MxFB7ns_LO3AAg-KkA
提取码:7zsx
2、使用微信扫描进行文件下载:
【原理链接】 GRNN/PNN原理介绍