数据预处理之重复值

最新推荐文章于 2025-03-25 20:10:19 发布

独木不林

最新推荐文章于 2025-03-25 20:10:19 发布

阅读量8.7k

点赞数 2

分类专栏： python学习机器学习文章标签：数据分析特征工程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuyanlin610/article/details/122730558

版权

python学习同时被 2 个专栏收录

27 篇文章

订阅专栏

11 篇文章

订阅专栏

目录

1、重复值的识别

1.1 DataFrame识别重复值-duplicated()

1.2 Serier识别重复值-is_unique

2、统计重复行的数量-duplicated().sum()

3、重复值的处理

0、前言

在实际数据采集、数据处理和数据分析中，经常会遇到的一个问题就是：重复数据。重复数据在进行数据分析或数据挖掘的过程中，对其输出结果有重要的影响。比如，在逻辑回归分析中，重复数据会影响模型的拟合优度；数据分析中，重复数据会影响预测内容准确性。所以，处理重复值数据有着重要的意义和作用。

1、重复值的识别

1.1 DataFrame识别重复值-duplicated()

data.duplicated()
data.duplicated("sex")

1.2 Serier识别重复值-is_unique

import pandas as pd
s = pd.Series(range(5),index=['a','a','b','b','c'])
s.index.is_unique

2、统计重复行的数量-duplicated().sum()

data.duplicated().sum()

3、重复值的处理

数据去重是处理重复值的主要方法，但如下几种情况慎重去重：

（1）样本不均衡时，故意重复采样的数据；

（2）分类模型，某个分类训练数据过少，可以采取简单复制样本的方法来增加样本数量

重复记录用户检测业务规则问题

（3）事务型数据，尤其与钱相关的业务场景下出现重复数据时，如重复订单，重复出库申请

data.drop_duplicates()
data.drop_duplicates(["age"]) #删除数据中指定列值相同的记录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。