去重
1、不定义任何参数,完全删除重复的行数据
2、去除重复的几列行数据
df.drop_duplicates(subset='##YR-MO-DA HH:MM:SS',keep='first') # 以第一次出现为准
长时间序列缺失补充
dfs["##YR-MO-DA HH:MM:SS"] = dfs["##YR-MO-DA HH:MM:SS"].astype("datetime64") # 确保数据格式为日期
date_range = pd.date_range(start=stime, end=etime, freq="5T") # freq="D"表示按天,可以按分钟,月,季度,年等
_df = dfs.set_index("##YR-MO-DA HH:MM:SS").reindex(index=date_range) # 缺失的时间对应的值填充为NAN
指定列相加
_df.iloc[:,5]+ _df.iloc[:,6]+_df.iloc[:,7]
# 等效于
_df,iloc[:,5:8].sum().values
数据拼接
dfs = pd.concat((dfs,df),axis=1) # axis指定按某一维进行拼接