数据预处理之重复值

目录

0、前言

1、重复值的识别

1.1 DataFrame识别重复值-duplicated()

1.2 Serier识别重复值-is_unique

 2、统计重复行的数量-duplicated().sum()

 3、重复值的处理


0、前言

在实际数据采集、数据处理和数据分析中,经常会遇到的一个问题就是:重复数据。重复数据在进行数据分析或数据挖掘的过程中,对其输出结果有重要的影响。比如,在逻辑回归分析中,重复数据会影响模型的拟合优度;数据分析中,重复数据会影响预测内容准确性。所以,处理重复值数据有着重要的意义和作用。

1、重复值的识别

1.1 DataFrame识别重复值-duplicated()

data.duplicated()
data.duplicated("sex")

 

1.2 Serier识别重复值-is_unique

import pandas as pd
s = pd.Series(range(5),index=['a','a','b','b','c'])
s.index.is_unique

 2、统计重复行的数量-duplicated().sum()

data.duplicated().sum()

 

 3、重复值的处理

数据去重是处理重复值的主要方法,但如下几种情况慎重去重:

(1)样本不均衡时,故意重复采样的数据;

(2)分类模型,某个分类训练数据过少,可以采取简单复制样本的方法来增加样本数量

重复记录用户检测业务规则问题

(3)事务型数据,尤其与钱相关的业务场景下出现重复数据时,如重复订单,重复出库申请

data.drop_duplicates()
data.drop_duplicates(["age"]) #删除数据中指定列值相同的记录

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值