本题采用的是2016年电工杯的负荷数据,具有温度、湿度、降雨量等多维特征,目标是求15年前十天的负荷预测数据。
导入数据以后会发现原数据有缺失值如下图所示:
用ismissing函数查找出来并用rmmissing函数删去该行。
接着先把所有数据绘图出来看看趋势
可以发现第一行代表温度的图像中具有很明显的离群值(已达到50℃以上),显然这属于分析中常见的异常值,所以对其进行异常值处理:利用filloutliers函数可以使用最接近的非离群值对离群值进行填充,不过这里要注意降水量这个特征比较特殊,由于其随机性太大因此不能对其进行离群值检测,否则处理过后会发生异常导致预测偏差性过大。
从图中也很容易看出数据具有很明显的周期性,基本上是以年为周期的趋势较为明显,因此我们将以年为单位对数据进行分析。
在数据标准化以后需要先进行平稳性检验,这里我采用单位根检验中的ADF检验和LMC检验,
[h_adf,p_adf] = adftest(train_output);
[h_lmc,p_lmc] = lmc