【数学建模】第1篇 原始数据做异常值剔除、归一化和相关性分析

目录

原始数据做异常值剔除、归一化和相关性分析

异常值剔除

归一化处理

预处理后的数据


原始数据做异常值剔除、归一化和相关性分析

[Si] 含量预测模型的成功率取决于过去 [Si] 含量数据的质量和数量,由于受到 仪表精度、可靠性、现场测量环境、炉温状况及人为因素的影响,“智能控制专 家系统”在线采集的数据会存在异常等情况,需剔除不完整和异常数据。如果用 这些数据来预测,会导致预测的成功率下降。而且输入变量众多且相互影响,必须对样本数据进行预处理,要对原始数据做异常值剔除、归一化和相关性分析等。

异常值剔除

1~ 4 分别是 1000 炉含硅量 [Si] 、含硫量 [S] 、鼓风量 FL 和喷煤量 PML的原始时间序列数据,从图 1~ 4 中可以看出,个别含硅量 [Si] 、含硫量 [S] 、鼓风量 FL 和喷煤量 PML 的数据波动较大,需要进行异常值的剔除。如果直接用这些数据来预测,将会导致预测的成功率下降,甚至预测的结果完全偏离实际值。

归一化处理

由于含硅量 [Si] 、含硫量 [S] 、鼓风量 FL 和喷煤量 PML 的原始时间序列数据 存在不同的量纲单位,因此数据的大小差别非常大,数据的范围也不相同。差异 的较大会增大某些变量对预测结果的影响,同时会减弱某些变量对预报模型的影 响,所以需要对剔除异常值后的含硅量[Si] 、含硫量 [S] 、鼓风量 FL 和喷煤量 PML 的时间序列数据进行归一化。将所有数据都转化为[0,1] 之间的数,可以消除数据 因大小不一而造成的偏差,最后对预测结果进行反归一化还原

预处理后的数据

经过异常值剔除、数据归一化处理之后得到 932 炉次的正常时间序列数据,具体数据见附录一。图 5~ 8 分别是预处理后的 932 炉含硅量 [Si] 、含硫量 [S] 、鼓风量 FL 和喷煤量 PML 的时间序列数据。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
大数据清洗技术是指在大数据处理过程中,对原始数据进行筛选、删除、修改、转换等操作,最终得到能够有效分析和利用的数据。大数据清洗技术的作用在于提高数据的质量,消除数据中的噪声、冗余和错误,从而提高数据分析的准确性和可靠性。 以下是一些常用的大数据清洗技术: 1. 数据去重:将数据中重复的记录删除,保留唯一的记录。 2. 缺失值填充:将数据中缺失的值填充为合适的数值或者字符。 3. 数据格式转换:将数据中的日期、时间、数字等格式转换为统一的格式,方便后续的处理。 4. 异常值处理:将数据中不符合常理或者不合法的值进行剔除或者修正。 5. 数据归一化:将数据中的不同量级的数据转化为相同的范围,以便于数据分析和比较。 大数据清洗技术的处理步骤一般包括以下几个步骤: 1. 数据评估:了解数据的特点,包括数据量、数据类型、数据结构等。 2. 数据预处理:对数据进行去重、缺失值填充、数据格式转换等操作。 3. 数据检验:对处理后的数据进行检验,确保数据的质量和准确性。 4. 数据整合:将多个数据源的数据进行整合,统一格式和结构。 5. 数据转换:将处理后的数据导入到分析工具中,进行数据分析和挖掘。 总之,大数据清洗技术的目的是提高数据的质量和可靠性,从而提高数据分析的准确性和可靠性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

嵌入式职场

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值