目录
原始数据做异常值剔除、归一化和相关性分析
[Si]
含量预测模型的成功率取决于过去
[Si]
含量数据的质量和数量,由于受到 仪表精度、可靠性、现场测量环境、炉温状况及人为因素的影响,“智能控制专 家系统”在线采集的数据会存在异常等情况,需剔除不完整和异常数据。如果用 这些数据来预测,会导致预测的成功率下降。而且输入变量众多且相互影响,必须对样本数据进行预处理,要对原始数据做异常值剔除、归一化和相关性分析等。
异常值剔除
图
1~
图
4
分别是
1000
炉含硅量
[Si]
、含硫量
[S]
、鼓风量
FL
和喷煤量
PML的原始时间序列数据,从图 1~
图
4
中可以看出,个别含硅量
[Si]
、含硫量
[S]
、鼓风量 FL
和喷煤量
PML
的数据波动较大,需要进行异常值的剔除。如果直接用这些数据来预测,将会导致预测的成功率下降,甚至预测的结果完全偏离实际值。
归一化处理
由于含硅量
[Si]
、含硫量
[S]
、鼓风量
FL
和喷煤量
PML
的原始时间序列数据 存在不同的量纲单位,因此数据的大小差别非常大,数据的范围也不相同。差异 的较大会增大某些变量对预测结果的影响,同时会减弱某些变量对预报模型的影 响,所以需要对剔除异常值后的含硅量[Si]
、含硫量
[S]
、鼓风量
FL
和喷煤量
PML 的时间序列数据进行归一化。将所有数据都转化为[0,1]
之间的数,可以消除数据 因大小不一而造成的偏差,最后对预测结果进行反归一化还原
预处理后的数据
经过异常值剔除、数据归一化处理之后得到
932
炉次的正常时间序列数据,具体数据见附录一。图 5~
图
8
分别是预处理后的
932
炉含硅量
[Si]
、含硫量
[S]
、鼓风量 FL
和喷煤量
PML
的时间序列数据。