数据处理pandas

1、缺失值时间戳不为NaN,为NaT, 同样判断都为isna()或notna()方法
2、删值\去重

df.dropna()
df.drop_duplicates()

3、上下值插值

df.fillna(method='pad') # 插取上面的值 可带参数limit = 
df.fillna(method='bfill') # 插取下面的值 同时可有limit参数表示插几个值
df.fillna(pd.mean()[[]]) # 插平均值,后面可接插的列数
df.interpolate() # 线性插值

插值借助于函数实现,已知数据去求解位置数据的值,插值在数据分析领域非常常见,好处是可以尽量还原数据本身的样子 线性插值的方法interpolate(),默认的线性插值的好处,在 原数据采用平均值或者上下值效果不是很好时(数值型变量存在连续型缺失值),可以尝试此方法。
插值情形:

Scipy
- 数据增长速率越来越快,可以选择 `method='quadratic'`二次插值。 - 数据集呈现出累计分布的样子,推荐选择 `method='pchip'`。 - 需要填补缺省值,以平滑绘图为目标,推荐选择 `method='akima'`。

4、Series

加法 add

减法 sub 

乘法 mul

除法 div

5、DataFrame

创建时间区间 date_range()  : 比如pd.date_range('today', periods=6)

1) 创建方式,数组array

2) 字典方式

6、其他:

1)列数据查询,查询多列时,需要双括号[[]],df[['列名1','列名2']],

2)排序sort_values(by = '')

3)修改值df.iat[,] ,df.loc['',''] 均会直接修改df

4) 大小写转换df.str.lower() ,  相反用upper()

 

...

 

 

 

 



 

转载于:https://www.cnblogs.com/hqczsh/p/11599743.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值