在这篇文章中,我将会教大家如何通过拟合一个线性回归模型来预测联合循环发电厂(CCPP)的发电量。这个数据集则来自于UCI
Machine Learning
Repository。这个数据集包含5列,也就是说,它包含环境温度(AT)、环境压力(AP)、相对湿度(RH)、抽真空(EV)已经发电厂的电网每小时的发电量。前面4个变量作为属性,最后一个则作为因变量。
读取和分解数据
由于数据是xlsx格式,我们需要xlsx包。我们将提取数据文件中的第一个表格。
library(xlsx)
powerData
head(powerData)
AT V AP RH PE
1 14.96 41.76 1024.07 73.17 463.26
2 25.18 62.96 1020.04 59.08 444.37
3 5.11 39.40 1012.16 92.14 488.56
4 20.86 57.32 1010.24 76.64 446.48
5 10.82 37.50 1009.23 96.62 473.90
6 26.27 59.44 1012.23 58.77 443.67
接下来,我们需要把数据集分成训练数据集和测试数据集。就像它们的名字所暗示的那样,训练数据集用于训练和建立模型,然后使用测试数据集对模型进行测试。现在,我们把75%的数据集作为训练数据集,和25%的数据作为测试数据集。我们可以按照下面的步骤操作:
set.seed(123)
split
trainData
testData
head(trainData)
head(testdata)
AT