目录
1.数据读取:提取全部NHNX40(1)检测器的数据。
通过Excel打开几个文件并查找后,确认仅有tmp02和tmp04中含有NHNX40(1)监测器结果,因此将两个文件合并为data文件,并针对data文件进一步通过函数过滤监测器NHNX40(1)的数据至新文件bind_data中。再用order函数将得到的数据进行排列。
输出结果如图1:
图1
2.冗余和缺失处理
1.统计冗余的记录数
2.冗余数据处理:如有冗余数据,则流量、占有率和速度采用冗余记录的平均值作为该时刻的记录值。
3.统计每天的记录数,得到每天的记录缺失个数:缺失是指按照固定间隔采集的记录中,某时刻的记录不存在。
4.对于缺失数据,采用前三个周期的平均值代替。(数据中可能有多个连续时刻记录缺失的情况,对于本次实验来说,仍依次按照前三周期均值修复)
将日期值提取出后,用后一列日期值减去前一列日期值,得到前后日期数据的差值。以时间差值为第一列,顺序编号为第二列新建数据框diff,并将diff按照差值由低到高排列,如图所示:
图2 图3
图中difftime为0secs的即为冗余值,difftime = 20 secs的为正常数据,difftime > 20secs的即为缺失值。
查找原表,发现冗余值为一个重复值,可以直接将其删去。同时也发现缺失值应有58个。
确定了冗余和缺失的情况后,就可以对其进行修改。
新建一个包含顺序编号的完整日期数据框,并将其与原数据框进行left_join操作。
找出数据框中的缺失部分,并利用for循环将每个缺失值用前三个周期的数据进行填补,从结果展示一个原来的缺失区域,现填补如图5:
图5