『Python』数据处理方法总结

最新推荐文章于 2024-06-21 13:19:16 发布

馨颖

最新推荐文章于 2024-06-21 13:19:16 发布

阅读量2.2k

点赞数 1

分类专栏：「数据处理能力」之编程技术

本文链接：https://blog.csdn.net/weixin_41903171/article/details/92651995

版权

数据录入

df=pd.DataFrame({'id':[1,1,1,3,4,5],'name':['Bob','Bob','Mark','Miki','Sully','Rose'],
                       'score':[99,99,87,77,77,np.nan],
                       'group':[1,1,1,2,1,2]})

数据处理是数据分析的必备环节，在进行分析过程中，会有很多不符合分析要求的数据，例如重复、错误、缺失、异常类数据。捋以下数据处理方法。

一、重复值处理

直接删除是重复数据处理的主要方法。pandas提供查看、处理重复数据的方法duplicated和drop_duplicates。

df[df.duplicated()]#发现重复数据

df.drop_duplicates()#进行去重
df.drop_duplicates('id')#按照某列进行去重

二、缺失值处理

首先，需要根据业务理解处理缺失值，弄清楚缺失值产生的原因是故意缺失还是随机缺失，再通过一些业务经验进行填补。缺失值处理总括图如下。

在下图中展示了中位数填补缺失值和缺失指示哑变量的生成过程。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

馨颖

关注关注

1
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
『Python』数据处理方法总结

数据录入df=pd.DataFrame({'id':[1,1,1,3,4,5],'name':['Bob','Bob','Mark','Miki','Sully','Rose'], 'score':[99,99,87,77,77,np.nan], 'group':[1,1,1,2,1,2]})数据处理...
复制链接

扫一扫