项目中数据处理过程中遇到的场景如下:一个系统下面有多个设备的运行数据,运行数据中有开关机状态的字段,需要统计在一个周期内,这些设备的开关机变化情况。
构造数据
import pandas as pd
# 1表示开机,0表示关机
df = pd.DataFrame({
1: [1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1],
2: [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1],
3: [1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0]
}, index=pd.date_range(start='2021-08-31 00:00:00', periods=11, freq='min'))
print(df)
out:
1 2 3
2021-08-31 00:00:00 1 0 1
2021-08-31 00:01:00 1 0 1
2021-08-31 00:02:00 1 0 1
2021-08-31 00:03:00 0 0 1
2021-08-31 00:04:00 0 0 1
2021-08-31 00:05:00 0 0 0
2021-08-31 00:06:00 0 0 0
2021-08-31 00:07:00 0 0 0
2021-08-31 00:08:00 0 1 0
2021-08-31 00:09:00 0 1 0
2021-08-31 00:10:00 1 1 0
解决思路
判断这些设备的开关机变化情况,有变化的就记录所变化的时间点,数值类型的话需要当前数据减去上一条数据,如果值为0,则无变化,如果不为0,则说明上下两条数据是有变化的。
# 下移数据
df_shift = df.shift()
print(df_shift)
out:
1 2 3
2021-08-31 00:00:00 NaN NaN NaN
2021-08-31 00:01:00 1.0 0.0 1.0
2021-08-31 00:02:00 1.0 0.0 1.0
2021-08-31 00:03:00 1.0 0.0 1.0
2021-08-31 00:04:00 0.0 0.0 1.0
2021-08-31 00:05:00 0.0 0.0 1.0
2021-08-31 00:06:00 0.0 0.0 0.0
2021-08-31 00:07:00 0.0 0.0 0.0
2021-08-31 00:08:00 0.0 0.0 0.0
2021-08-31 00:09:00 0.0 1.0 0.0
2021-08-31 00:10:00 0.0 1.0 0.0
# 两者相减
df_change = df - df_shift
print(df_change)
1 2 3
2021-08-31 00:00:00 NaN NaN NaN
2021-08-31 00:01:00 0.0 0.0 0.0
2021-08-31 00:02:00 0.0 0.0 0.0
2021-08-31 00:03:00 -1.0 0.0 0.0
2021-08-31 00:04:00 0.0 0.0 0.0
2021-08-31 00:05:00 0.0 0.0 -1.0
2021-08-31 00:06:00 0.0 0.0 0.0
2021-08-31 00:07:00 0.0 0.0 0.0
2021-08-31 00:08:00 0.0 1.0 0.0
2021-08-31 00:09:00 0.0 0.0 0.0
2021-08-31 00:10:00 1.0 0.0 0.0
获取变化所在的行
print(abs(df_change) > 0)
out:
1 2 3
2021-08-31 00:00:00 False False False
2021-08-31 00:01:00 False False False
2021-08-31 00:02:00 False False False
2021-08-31 00:03:00 True False False
2021-08-31 00:04:00 False False False
2021-08-31 00:05:00 False False True
2021-08-31 00:06:00 False False False
2021-08-31 00:07:00 False False False
2021-08-31 00:08:00 False True False
2021-08-31 00:09:00 False False False
2021-08-31 00:10:00 True False False
# 这时需要用到any来判断每行是否有True的情况,直接给出结果
print(df[(abs(df_change) > 0).any(axis=1)])
out:
1 2 3
2021-08-31 00:03:00 0 0 1
2021-08-31 00:05:00 0 0 0
2021-08-31 00:08:00 0 1 0
2021-08-31 00:10:00 1 1 0
如上,便获取到了有关上下两行数值类型数据是否有变化的情况。