数据清洗常见六大问题及处理方法

最新推荐文章于 2024-09-27 20:51:30 发布

isNotNullX

最新推荐文章于 2024-09-27 20:51:30 发布

阅读量1.9k

点赞数 20

文章标签：大数据数据清洗

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oOBubbleX/article/details/140486510

版权

目录

一、数据缺失值

1.计算缺失比例

2.删除不重要或缺失率过高的数据

3.填充缺失数据

4.重新获得数据

二、数据值不匹配

1.清洗内容中有不合逻辑的字符

2.内容和该字段应有内容不符

三、数据重复

1.数据值完全相同的多条数据记录

2.数据主体相同，但一个属性匹配到不同的多个值

a. 重复记录用于分析演变规律

b. 重复的记录用于样本不均衡处理

c. 重复的记录用于检测业务规则问题

四、数据不合理

五、数据字段格式

1.确定正确的数据字段格式

2.清洗文本格式

3.数据类型转换

六、数据无用

1.理解业务需求和数据特点

2.数据分析和统计

3.根据业务需求调整数据量

数据清洗是整个数据分析过程中不可或缺的一部分，确保数据的质量和准确性对于后续的数据分析和业务决策至关重要。本文总结了数据清洗常见六大问题，并给出了一些处理方法和建议。

数据清洗常见六大问题及处理方法思维导图

一、数据缺失值

处理缺失值非常重要，因为缺失值会影响数据的分析和决策。因此，正确选择填充或删除策略是很必要的，同时也可以根据具体情况使用不同的统计方法或数据工具进行数据清洗。具体处理方法如下：

1.计算缺失比例

首先，我们可以计算每个字段的缺失值比例，然后根据比例和字段的重要性设置不同的策略。

2.删除不重要或缺失率过高的数据

如果数据不重要或者缺失率过高，我们可以直接删除字段。

3.填充缺失数据

对于重要数据或缺失率较低的数据，我们可以使用以下三种方法来填补数据：

1. 根据业务知识或过往经验给出推测填充

2. 利用同一指标数据计算结果（如均值、中位数等）填充

3. 利用不同指标数据推算结果填充，例如用身份证信息可以揭示年龄等信息。

4.重新获得数据

对于某些缺失率高，且缺失值被认为非常重要的数据，我们可以与业务人员合作，探讨其他渠道重新获得数据的可能性，例如某些数据可能可以通过另一个数据库或API得到。

二、数据值不匹配

在处理数据值不匹配问题时，需要采用一些常规的清洗方法，并结合具体情况采用人工处理等方法，最终保证数据的准确性和完整性。以下是处理此类问题的两种方法：

1.清洗内容中有不合逻辑的字符

在处理这种数据时，主要是要去除不合逻辑的字符，如头、尾或中间的空格、姓名中的特殊字符和拼写错误等。这种情况下，需要以半自动校验半人工方式来找出可能存在的问题，并去除不需要的字符。可以通过使用数据清洗工具或者编写规则脚本来实现。

2.内容和该字段应有内容不符

在处理数据中出现内容和字段不匹配的情况时，需要采用详细识别、分类处理问题的方法。这部分的处理往往需要人工处理，尽量细致地检查，避免遗漏或误删。处理方法包括：

1. 针对某个字段的特殊值或异常值，可以通过检查业务逻辑或者调查来识别原因，并进行修正。

2. 对于乱码等无法处理的问题，除了删除外，也可以先进行分类，再人工处理，提高清洗的效率和准确性。

三、数据重复

处理重复数据需要根据具体情况来选择合适的方法。除了使用现有的数据清洗工具外，还需要结合业务规则和数据特点来进行合理的数据清洗操作。以下是处理重复数据的方法：

1.数据值完全相同的多条数据记录

对于值完全相同的数据，可以使用一些去重工具自动识别和删除重复的数据行。例如，可以使用帆软FDL等数据清洗工具进行去重操作。

2.数据主体相同，但一个属性匹配到不同的多个值

对于这种情况，可以选择通过合并多列数据来实现去重。例如，可以选择使用GROUP BY的SQL语句，将相同的记录合并在一起，或者通过编写脚本来筛选出相同的唯一记录。

需要注意的是，有些情况下可能不应该对重复记录进行去重操作。以下是几种情况：

a. 重复记录用于分析演变规律

在分析数据变化历史时，重复记录是有用的，因为它们可以显示系统迭代更新时的数据变化。

b. 重复的记录用于样本不均衡处理

在数据分析中，有时需要处理样本不均衡的情况。在这种情况下，重复记录可以用于增加少数类样本，从而获得更准确的数据分析结果。

c. 重复的记录用于检测业务规则问题

在检测业务规则问题时，重复记录可以反映业务规则的缺陷和不足。在此情况下，需要人工验证每个记录是否有效，查看是否存在业务规则的漏洞。

四、数据不合理

处理数据不合理的问题需要使用不同的方法分析和清洗：

1.分箱

分箱是将连续变量转换为离散变量的一个常见方法。可以通过将连续数据按照一定的范围分组，将分组后的数据作为一个新的类别进行分析，从而识别不合理的数据点。对于存在异常的箱子，可以将其视为无效数据并进行清洗。

2.聚类

聚类是一种无监督学习方法，可以将数据集中的相似数据分成不同的集群。可以使用聚类来发现不同的数据群体，并查找其中的异常值/不合理值。

3.回归

回归分析可以对数据进行建模分析，来识别模型中的离群值和异常值。通过观察回归模型的拟合效果，可以发现数据集中的异常值、离群值或者不合理数据，并采取相应的措施进行清洗。

需要注意的是，分析数据不合理值通常需要利用统计方法，找出数据中明显偏离正常分布范围的数据点，并考虑其异常性和实际业务情况，进行人工处理。和其他数据清洗操作类似，清洗过程也需要考虑业务逻辑，利用各种方法尽可能地提高准确率和效率。

五、数据字段格式

在进行数据字段格式处理时，必须考虑到业务需要和数据质量要求，并同时验证清洗的有效性。以下是解决此类问题的方法：

1.确定正确的数据字段格式

首先需要确定每个字段应该具有的格式类型，如日期、数字、文本等。然后，对照字段的实际格式类型，识别需要进行格式转换或清洗的字段。例如，可以使用Python中的Pandas库和正则表达式来处理字段格式不统一的问题。

2.清洗文本格式

对于文本字段，应该去除多余的空格、特殊字符、标点符号和其他格式问题。比较常见的文本清洗包括去掉HTML标记、转换大小写、识别并转换URL等。

3.数据类型转换

有时候数据类型在传递过程中会发生变化，需要对其进行转换。例如，将文本型日期转换为日期类型、将字符串型数字转换为数字类型、将布尔型数据转换为1和0等。

六、数据无用

由于主观因素的影响，我们有时难以判断数据的价值，因此在进行数据清洗时，必须具备一定的专业知识和数据领域的实际经验。以下是处理无用数据的建议：

1.理解业务需求和数据特点

首先需要充分理解业务需求和数据特点，明确需要分析的的数据内容和目标输出结果。在此基础上，筛选出与业务需求不相关或无用的数据。

2.数据分析和统计

通过数据分析和统计手段，排除无效数据。对于没有明确业务含义、维度稀少或数据量过少的数据，可以考虑将其删除或归类统计。通过数据分析和统计的方法，可以减少数据量，找到有价值的数据。

3.根据业务需求调整数据量

不同的业务需求需要不同的数据量，如果数据量太大而无法快速有效地处理和分析时，可以根据实际需要和数据分析结果调整数据量。例如，可以通过筛选样本数据、区间采样、数据抽样等方法来减小数据量，从而提高分析的效率和精度。

在实际场景中，数据清洗的人力成本的确是非常高的，并且数据情况也更为复杂，因此使用ETL工具可以帮助简化数据处理流程，提高处理效率，降低出错率。

FineDataLink是一款优秀的ETL工具，拥有低代码的优势，提供了简单易用的交互界面，用户可以通过拖拽等方式轻松实现数据抽取、数据清洗、数据转换、数据整合、数据加载等多个环节。此外，帆软FDL还提供了强大的数据处理功能，例如数据清洗规则自由组合、数据去重、数据合并、数据拆分、数据聚合等，大大提高了数据处理效率和准确性。如果您需要进行大规模数据处理和数据清洗工作，使用帆软FDL是非常不错的选择。

了解更多数据仓库与数据集成关干货内容请关注>>>FineDataLink官网

免费试用、获取更多信息，点击了解更多>>>体验FDL功能

往期推荐：

数仓实践：数据回滚的实现思路-CSDN博客

FDL与Kettle功能对比分析之定时任务DDL-CSDN博客

【大数据】什么是数据清洗？（附应用场景及解决方案）-CSDN博客

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。