数据预处理：重复值

最新推荐文章于 2024-09-16 15:20:21 发布

一生所爱``

最新推荐文章于 2024-09-16 15:20:21 发布

阅读量630

点赞数 4

文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Houdr243/article/details/136853899

版权

数据重复值处理

数据重复值出现情况

数据重复值出现情况

数据集中的重复值包括以下两种情况：

数据值完全相同的多条数据记录。这是最常见的数据重复情况。
数据主体相同但匹配到的唯一属性值不同。这种情况多见于数据仓库中的变化维度表，同一个事实表的主体会匹配同一个属性的多个值。

去重是重复值处理的主要方法，主要目的是保留能显示特征的唯一数据记录。但当遇到以下几种情况时，不建议执行数据去重：

重复的记录用于分析演变规律

以变化维度表为例。例如在商品类别的维度表中，每个商品对应的同1个类别的值应该是唯一的，例如苹果iPhone7属于个人电子消费品，这样才能将所有商品分配到唯一类别属性值中。但当所有商品类别的值重构或升级时（大多数情况下随着公司的发展都会这么做），原有的商品可能被分配了类别中的不同值。如

在这里插入图片描述

此时，我们在数据中使用Full join做跨重构时间点的类别匹配时，会发现苹果iPhone7会同时匹配到个人电子消费品和手机数码2条记录。对于这种情况，需要根据具体业务需求处理。

如果跟业务沟通，两条数据需要做整合，那么需要确定一个整合字段用来涵盖2条记录。其实就是将2条数据再次映射到一个类别主体中。
如果跟业务沟通，需要同时保存两条数据，那么此时不能做任何处理。后续的具体处理根据建模需求而定。

在这里插入图片描述

重复的记录用于样本不均衡处理

在开展分类数据建模工作时，样本不均衡是影响分类模型效果的关键因素之一。

解决分类方法的一种方法是对少数样本类别做简单过采样，通过随机过采样，采取简单复制样本的策略来增加少数类样本。经过这种处理方式后，也会在数据记录中产生相同记录的多条数据。此时，我们不能对其中的重复值执行去重操作。

随机过采样：从少数类的样本中进行随机采样来增加新的样本

重复的记录用于检测业务规则问题

对于以分析应用为主的数据集而言，存在重复记录不会直接影响实际运营，毕竟数据集主要是用来做分析的。

对于事务型的数据而言，重复数据可能意味着重大运营规则问题，尤其当这些重复值出现在与企业经营中与金钱相关的业务场景时，例如：重复的订单、重复的充值、重复的预约项、重复的出库申请等。

这些重复的数据记录通常是由于数据采集、存储、验证和审核机制的不完善等问题导致的，会直接反映到前台生产和运营系统。以重复订单为例，假如前台的提交订单功能不做唯一性约束，那么在一次订单中重复点击提交订单按钮，就会触发多次重复提交订单的申请记录，如果该操作审批通过后，会联动带动运营后端的商品分拣、出库、送货，如果用户接收重复商品则会导致重大损失；如果用户退货则会增加反向订单，并影响物流、配送和仓储相关的各个运营环节，导致运营资源无端消耗、商品损耗增加、仓储物流成本增加等问题。

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。