问题描述
在处理时间数据的时候会遇到日期缺失和日期重复的问题,如上图所示,2点、7点的数据重复了,缺少了4点的数据。那么怎么处理这些数据。
处理日期重复
#读取数据,输出前十行
import pandas as pd
df = pd.read_csv('D:\data-mining\data1/#89.csv')
power=df.loc[:, ['DataTime','fValueData']]
print(power[:10])
#打印重复值
print(power[power.duplicated()==True])
#删除重复行
power.drop_duplicates(inplace=True)
power=power.reset_index(drop=True)#重置索引
print(power[:10])
日期缺失
power = power.set_index(pd.to_datetime(power['DataTime'])).drop('DataTime',axis=1)
power = power.resample('H').mean().interpolate()
print(power[:10])