数据分析处理缺失值

最新推荐文章于 2022-12-23 18:08:09 发布

disasters

最新推荐文章于 2022-12-23 18:08:09 发布

阅读量607

点赞数 2

分类专栏：数据分析文章标签：缺失值数据分析

本文链接：https://blog.csdn.net/disasters/article/details/91954142

版权

数据分析专栏收录该内容

3 篇文章 0 订阅

订阅专栏

#缺失值
data.isnull()   //将数据转换成值为True或Null
(data.isnull()).sum()   //返回每一列缺失值的个数
data.dropna(subset = ['yuanjia'], inplace=True)   //直接在源数据中删除列为 yuanjia的缺失值


#重复值
data.duplicated().sum()
data.drop_duplicates(inplace=True)

len(data)

#类型不统一
(data['shoujia'].str.contains('万')).sum()
data['shoujia'].map(lambda x:float(x.replace('万','')))

#排序
data.sort_values('licheng')
data.sort_values('licheng', ascending = False)

#统计数据中在以bins做区间时的数据的个数，如在 0-15 数据有30412个
bins = [0,15,20,25,30,35,40,45,60,75,90,100,1000,2000,6000]
pd.cut(data.Value,bins).value_counts()

#分组
//以didian来分组，并返回shoujia的平均值
data.groupby(['didian'])['shoujia'].mean()
//以didian和pinpai进行分组，返回的是相应pinpai的个数
data.groupby(['didian','pinpai'])['pinpai'].count()