基于麻雀算法改进的LSTM分类算法
摘要:为了提高LSTM数据的分类预测准确率,对LSTM中的参数利用麻雀搜索算法进行优化。
1.数据集
数据的来源是 UCI 数据库中的肿瘤数据。数据信息如下:
data.mat 的大小为569*32。
其中第2列为标签数据,包含两类标签。
第3列到最后一列为特征数据。
所以RF模型的数据输入维度为30;输出维度为1。
2.LSTM模型
LSTM请自行参考相关机器学习书籍。
3.基于麻雀算法优化的LSTM
麻雀搜索算法的具体原理参考博客:https://blog.csdn.net/u011835903/article/details/108830958。
麻雀算法的优化参数为 LSTM网路包含的隐藏单元数目,最大训练周期,分块尺寸,初始学习率,L2参数。适应度函数为LSTM对训练集和测试集的预测错误率,错误率越低越好。
f
i
n
t
e
n
e
s
s
=
e
r
r
o
r
R
a
t
e
[
p
r
e
d
i
c
t
(
t
r
a
i
n
)
]
+
e
r
r
o
r
R
a
t
e
[
p
r
e
d
i
c
t
(
t
e
s
t
)
]
finteness = errorRate[predict(train)] + errorRate[predict(test)]
finteness=errorRate[predict(train)]+errorRate[predict(test)]
4.测试结果
数据划分信息如下: 训练集数量为500组,测试集数量为69组
麻雀参数设置如下:
%% 定义麻雀优化参数
pop=10; %种群数量
Max_iteration=10; % 设定最大迭代次数
dim = 5;%维度,即LSTM网路包含的隐藏单元数目,最大训练周期,分块尺寸,初始学习率,L2参数
lb = [2,2,2,10E-5,10E-6];%下边界
ub = [200,100,30,1,1];%上边界
fobj = @(x) fun(x,inputSize,numClasses,XTrain,YTrain,XTest,YTest);
SSA-LSTM优化得到的最优参数为:
SSA-LSTM优化得到的隐藏单元数目为:121
SSA-LSTM优化得到的最大训练周期为:100
SSA-LSTM优化得到的BatchSize为:25
SSA-LSTM优化得到的InitialLearnRate为:0.014208
SSA-LSTM优化得到的L2Regularization为:0.00013498
SSA-LSTM算法结果:
训练集准确率:0.92
测试集准确率:0.97101
LSTM算法结果:
训练集准确率:0.892
测试集准确率:0.97101
由于训练时间比教长,麻雀的种群数量,和迭代次数设置的比较低,但是从结果来看,SSA-LSTM的结果比原始LSTM的更优。