✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。
🍎个人主页:Matlab科研工作室
🍊个人信条:格物致知。
更多Matlab仿真内容点击👇
⛄ 内容介绍
RF算法原理
随机森林算法的原理可以通过以下公式概括:
-
对于给定的训练集,假设有N个样本,每个样本有M个特征。
-
从训练集中进行有放回抽样,产生B个大小相同的训练集(bootstrap样本)。
-
对于每个训练集,使用决策树算法构建一颗决策树模型。在构建决策树的过程中,对于每个节点,在随机选择的m个特征中选择最优的分割特征。
-
重复步骤2和步骤3,构建B颗决策树模型。
-
对于新样本,通过B颗决策树模型的投票或平均得到最终的预测结果。
其中,随机森林算法通过引入两种随机性来提高模型的泛化能力:bootstrap抽样和随机选择特征。Bootstrap抽样保证了每颗决策树的训练集具有一定的随机性,随机选择特征使得每个决策树的分割特征具有一定的差异性。这样可以减小过拟合风险,提高模型的鲁棒性和准确性。
RF算法流程
对于基于随机森林算法的数据回归预测,你可以使用随机森林回归模型来进行预测。随机森林是一种集成学习算法,它由多个决策树组成,每个决策树都是独立训练的。
以下是使用随机森林回归模型进行数据回归预测的一般步骤:
-
收集数据集:首先,你需要收集包含特征和目标变量的数据集。确保数据集中没有缺失值或异常值,并且进行适当的数据预处理。
-
拆分数据集:将数据集拆分为训练集和测试集。通常,你可以将大部分数据用于训练,剩余部分用于模型评估。
-
特征选择:根据实际情况选择适当的特征。可以通过统计分析、特征相关性等方法进行特征选择。
-
建立模型:使用训练集来构建随机森林回归模型。在每个决策树的训练过程中,可以通过随机选择特征和样本来增加模型的多样性。
-
模型训练:使用训练集对随机森林模型进行训练。模型会根据特征和目标变量之间的关系来学习。
-
模型预测:使用测试集对模型进行预测。通过比较预测结果与实际值,评估模型的性能。
-
模型评估:使用适当的评估指标(如均方误差、平均绝对误差等)来评估模型的准确性和性能。
-
调优和改进:根据评估结果,对模型进行调优和改进。你可以调整模型的参数、特征选择方法等,以提高模型的性能。
-
预测新数据:当模型满足要求后,可以使用它来预测新的未知数据。
⛄ 代码
%% 清空环境变量
warning off % 关闭报警信息
close all % 关闭开启的图窗
clear % 清空变量
clc % 清空命令行
%% 导入数据
res = xlsread('数据集.xlsx');
%% 划分训练集和测试集
temp = randperm(103);
P_train = res(temp(1: 80), 1: 7)';
T_train = res(temp(1: 80), 8)';
M = size(P_train, 2);
P_test = res(temp(81: end), 1: 7)';
T_test = res(temp(81: end), 8)';
N = size(P_test, 2);
%% 数据归一化
[p_train, ps_input] = mapminmax(P_train, 0, 1);
p_test = mapminmax('apply', P_test, ps_input);
[t_train, ps_output] = mapminmax(T_train, 0, 1);
t_test = mapminmax('apply', T_test, ps_output);
%% 转置以适应模型
p_train = p_train'; p_test = p_test';
t_train = t_train'; t_test = t_test';
%% 训练模型
trees = 100; % 决策树数目
leaf = 5; % 最小叶子数
OOBPrediction = 'on'; % 打开误差图
OOBPredictorImportance = 'on'; % 计算特征重要性
Method = 'regression'; % 分类还是回归
net = TreeBagger(trees, p_train, t_train, 'OOBPredictorImportance', OOBPredictorImportance,...
'Method', Method, 'OOBPrediction', OOBPrediction, 'minleaf', leaf);
importance = net.OOBPermutedPredictorDeltaError; % 重要性
%% 仿真测试
t_sim1 = predict(net, p_train);
t_sim2 = predict(net, p_test );
%% 数据反归一化
T_sim1 = mapminmax('reverse', t_sim1, ps_output);
T_sim2 = mapminmax('reverse', t_sim2, ps_output);
%% 均方根误差
error1 = sqrt(sum((T_sim1' - T_train).^2) ./ M);
error2 = sqrt(sum((T_sim2' - T_test ).^2) ./ N);
%% 绘图
figure
plot(1: M, T_train, 'r-*', 1: M, T_sim1, 'b-o', 'LineWidth', 1)
legend('真实值', '预测值')
xlabel('预测样本')
ylabel('预测结果')
string = {'训练集预测结果对比'; ['RMSE=' num2str(error1)]};
title(string)
xlim([1, M])
grid
figure
plot(1: N, T_test, 'r-*', 1: N, T_sim2, 'b-o', 'LineWidth', 1)
legend('真实值', '预测值')
xlabel('预测样本')
ylabel('预测结果')
string = {'测试集预测结果对比'; ['RMSE=' num2str(error2)]};
title(string)
xlim([1, N])
grid
%% 绘制误差曲线
figure
plot(1: trees, oobError(net), 'b-', 'LineWidth', 1)
legend('误差曲线')
xlabel('决策树数目')
ylabel('误差')
xlim([1, trees])
grid
%% 绘制特征重要性
figure
bar(importance)
legend('重要性')
xlabel('特征')
ylabel('重要性')
%% 相关指标计算
% R2
R1 = 1 - norm(T_train - T_sim1')^2 / norm(T_train - mean(T_train))^2;
R2 = 1 - norm(T_test - T_sim2')^2 / norm(T_test - mean(T_test ))^2;
disp(['训练集数据的R2为:', num2str(R1)])
disp(['测试集数据的R2为:', num2str(R2)])
% MAE
mae1 = sum(abs(T_sim1' - T_train)) ./ M;
mae2 = sum(abs(T_sim2' - T_test )) ./ N;
disp(['训练集数据的MAE为:', num2str(mae1)])
disp(['测试集数据的MAE为:', num2str(mae2)])
% MBE
mbe1 = sum(T_sim1' - T_train) ./ M ;
mbe2 = sum(T_sim2' - T_test ) ./ N ;
disp(['训练集数据的MBE为:', num2str(mbe1)])
disp(['测试集数据的MBE为:', num2str(mbe2)])
%% 绘制散点图
sz = 25;
c = 'b';
figure
scatter(T_train, T_sim1, sz, c)
hold on
plot(xlim, ylim, '--k')
xlabel('训练集真实值');
ylabel('训练集预测值');
xlim([min(T_train) max(T_train)])
ylim([min(T_sim1) max(T_sim1)])
title('训练集预测值 vs. 训练集真实值')
figure
scatter(T_test, T_sim2, sz, c)
hold on
plot(xlim, ylim, '--k')
xlabel('测试集真实值');
ylabel('测试集预测值');
xlim([min(T_test) max(T_test)])
ylim([min(T_sim2) max(T_sim2)])
title('测试集预测值 vs. 测试集真实值')
⛄ 运行结果
⛄ 参考文献
[1] 朱品光.基于随机森林回归算法的堆石坝爆破块度预测研究[D].天津大学[2023-07-21].
[2] 叶玲,张永军.一种基于随机森林回归预测算法的路灯智能节能方法:CN201610922265.6[P].CN107979900A[2023-07-21].
[3] 袁博,刘石,姜连勋,等.基于随机森林回归算法的住房租金预测模型[J].电脑编程技巧与维护, 2020(1):3.DOI:CNKI:SUN:DNBC.0.2020-01-009.