pandas常用笔记-清洗数据,补充缺失时间的数据

去重

1、不定义任何参数,完全删除重复的行数据

2、去除重复的几列行数据

df.drop_duplicates(subset='##YR-MO-DA HH:MM:SS',keep='first') # 以第一次出现为准

长时间序列缺失补充

dfs["##YR-MO-DA HH:MM:SS"] = dfs["##YR-MO-DA HH:MM:SS"].astype("datetime64")  # 确保数据格式为日期
date_range = pd.date_range(start=stime, end=etime, freq="5T")  # freq="D"表示按天,可以按分钟,月,季度,年等
_df = dfs.set_index("##YR-MO-DA HH:MM:SS").reindex(index=date_range) # 缺失的时间对应的值填充为NAN

指定列相加

_df.iloc[:,5]+ _df.iloc[:,6]+_df.iloc[:,7] 
# 等效于
_df,iloc[:,5:8].sum().values

数据拼接

dfs = pd.concat((dfs,df),axis=1) # axis指定按某一维进行拼接
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值