随机森林具有预测功能,您可以在其中为已经训练过的独立变量提供数据点,并预测因变量的值 . 我的目标是计算如何使用滞后变量训练和预测随机森林 .
我有一个具有以下自变量的数据集:
Quarter, US_GDP, UK, Canada, MiddleEast, Africa
我的因变量是 Total_Oil_Production
我有 2008Q1 到 2015Q4 的数据,我的目标是预测 future quarters 2016 onwards 的石油产量 .
> head(oil.data)
Quarter US_GDP UK Canada MiddleEast Africa Total_Oil_Production
1 2008Q1 14685.3 77.22900 96.73333 0.06666667 7784.333 1290.3
2 2008Q2 14668.4 78.19967 98.36667 0.36666667 7988.200 1212.8
3 2008Q3 14813.0 78.29500 98.46667 0.13333333 8090.567 1302.0
4 2008Q4 14843.0 78.63800 97.56667 0.60000000 8120.800 1136.6
5 2009Q1 14549.9 78.47733 98.23333 0.30000000 8197.200 846.4
6 2009Q2 14383.9 79.22400 99.70000 0.40000000 8278.100 748.3
您可能会看到我没有2016年以后的季度数据 .
> tail(oil.data)
Quarter US_GDP UK Canada MiddleEast Africa Total_Oil_Production
31 2015Q3 17913.7 86.65300 115.7 -0.1 10985.20 1554.4
32 2015Q4 18060.2 86.85767 116.9 0.8 10933.03 1542.6
33 2016Q1 NA NA NA NA NA NA
34 2016Q2 NA NA NA NA NA NA
35 2016Q3 NA NA NA NA NA NA
36 2016Q4 NA NA NA NA NA NA
作为一个正常的预测问题,我将按照以下步骤构建randomForest模型 .
拆分列车数据 2008Q1 - 2013Q4
测