数据分析处理缺失值

#缺失值
data.isnull()   //将数据转换成值为True或Null
(data.isnull()).sum()   //返回每一列缺失值的个数
data.dropna(subset = ['yuanjia'], inplace=True)   //直接在源数据中删除列为 yuanjia的缺失值


#重复值
data.duplicated().sum()
data.drop_duplicates(inplace=True)

len(data)

#类型不统一
(data['shoujia'].str.contains('万')).sum()
data['shoujia'].map(lambda x:float(x.replace('万','')))

#排序
data.sort_values('licheng')
data.sort_values('licheng', ascending = False)

#统计数据中在以bins做区间时的数据的个数,如在 0-15 数据有30412个
bins = [0,15,20,25,30,35,40,45,60,75,90,100,1000,2000,6000]
pd.cut(data.Value,bins).value_counts()

#分组
//以didian来分组,并返回shoujia的平均值
data.groupby(['didian'])['shoujia'].mean()
//以didian和pinpai进行分组,返回的是相应pinpai的个数
data.groupby(['didian','pinpai'])['pinpai'].count()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值