数据挖掘笔记之简单数据清洗

本文介绍了数据清洗的关键步骤,包括检查并删除重复值,处理缺失值(删除、替换、插补)以及异常值的检测和处理。对于缺失值,提出了删除法、替换法和插补法;异常值处理则涉及n个标准差法和箱图法。此外,还讲解了如何使用iloc, loc, ix获取数据子集。" 81382709,7502907,DKHadoop安装全攻略:轻松实现三节点部署,"['hadoop安装教程', '大数据开发', 'Linux系统', 'DKHadoop']
摘要由CSDN通过智能技术生成

判断数据是否有重复值

any(df.deplicated())

#any函数:在多个条件判断中,只要有一个条件为True,any的结果为True。

删除重复项

df.drop_deplicates(inplace=True)

缺失值

删除法:比例小于5%或大于85%
替换法:连续变量使用均值和中位数,离散使用众数
插补法:回归插补,K邻近插补,拉格朗日插补

判断是否有缺失值

any(df.is_null())

删除缺失值

df.dropna()
df.drop('age',axis=1)

前向替换,后向替换

df.fillna(method='ffill')
df.fillna(method='billf')

常数替换,统计值替换

df.fillna(value=0)
df.fillna('gender':df.gender.mode()[0],
		'age':df.age.mean(),
		'income':df.income.median())

dropna,drop,fillna方法使用inplace=True改变原table

异常值处理

异常值检测有两种:

①n个标准差法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值