数据挖掘基础学习(1)数据清洗:重复值、缺失值、异常值处理

本文重点介绍了Python中pandas库进行数据清洗的基础操作,包括如何处理重复值、缺失值和异常值。通过duplicated()和drop_duplicates()函数删除重复记录,使用isnull()检查缺失值,并探讨了删除、填充缺失值的方法。对于异常值,文章提到了n个标准差法和箱线图判别法进行识别,并给出了替换异常值的示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        本文暂不讨论数据类型转换、离散变量重编码、冗余信息及无意义信息处理方法,仅先从最基本数据清洗规则:重复值、缺失值、异常值处理角度入手进行讨论,其余部分内容将在后期进行说明

注:本文讨论内容基于Python语言,处理对象为常规pandas读取数据表格格式Dataframe

一、重复值处理

1.数据预览

        使用函数:dataframe.duplicated(subset=['A','B'],keep='first')

        Dataframe通过调用duplicated(),返回一个长度等于记录条数的bool类型Series,Series中的值索引位置对应Dataframe行索引位置,根据keep参数不同,表现如下(非重复记录均为False):

keep取值 效果
‘first’(默认) 第一条重复记录为False,其余重复记录为True
‘last’ 最后一条重复记录为False,其余重复记录为True
False 重复记录均为True

        duplicated()可以通过添加Dataframe列索引列表限制重复检索范围,dataframe.duplicated()无限制情况下思维上类似SQL采用

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值