pandas高级数据处理学习笔记(简略版)

视频来源:

https://www.bilibili.com/video/BV1xt411v7z9?p=56

一、缺失值处理

import pandas as pd
1、判断是否存在缺失值
data=pd.read_csv('./1.csv')
pd.isnull(data).any() # 返回True说明存在缺失值
pd.notnull(data).all() # 返回False说明存在缺失值
2、缺失值是nan
data.dropna(inplace=True) # 删除
data['r'].fillna(data['r'].mean(),inplace=True) #填补
3、缺失值不是nan
data_new=data.replace(to_replace='?',value=np.nan)
data_new.dropna(inplace=True)

二、one-hot

# 变成one-hot变量
sr=pd.Series([1,2,3,4,5,9,0],index=['x','y','c','v','b','n','m'])
# 分组
pd.qcut(sr,3)
# bins=[0,3,6,9]
# pd.cut(sr,bins)
# 转换
pd.get_dummies(sr,prefix='这是前缀')

三、合并

# 按方向连接
data1=pd.concat([data1,data2],axis=0)
# 按索引连接
data2=pd.merge(left,right,how='inner',on=['key1','key2'])

四、交叉表

# 交叉表
data=pd.crosstab(values1,values2)
data.div(data.sum(axis=1),axis=0)

五、分组与聚合

# 对color列分组,price1进行聚合
df.groupby(by='color')['price1'].max()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值