一文带你看懂数据清洗的六大问题！（附工具推荐）

最新推荐文章于 2024-11-21 09:46:47 发布

小天才学习机打游戏

最新推荐文章于 2024-11-21 09:46:47 发布

阅读量3.3k

点赞数 23

文章标签：人工智能大数据机器学习 ocr 数据库 oracle jvm

本文链接：https://blog.csdn.net/m0_59164520/article/details/142602189

版权

这个环节通过将重复、多余的数据筛选清除，将缺失的数据补充完整，将错误的数据纠正或去除，从而提升数据质量，提供给上层应用调用。它可以有效处理数据的常见问题：数据缺少值、数据值不匹配、数据重复、数据不合理、数据字段格式不统一、数据无用。

数据清洗步骤

如何做好数据清洗，从而提高数据价值和利用效率？

前面我们已经谈到了数据处理的六大问题：数据缺失值、数据值不匹配、数据重复、数据不合理、数据字段格式不统一、数据无用。

我们从第一个问题开始讲起：

1. 数据缺失值：

1）对每个字段计算其缺失值比例，然后按照缺失比例和字段重要性，进行分别制定战略

2）不重要的，或者缺失率过高的数据直接去除字段

3）重要的数据，或者缺失率尚可的数据，可以进行补全。

a.通过业务知识或者过往经验进行推测填充

b.用同一指标数据计算结果（均值、中位数等）填充

c.用不同指标数据计算结果填充（如年龄可用身份证信息推测）

d.数据填充情况很复杂，数据填充的方式有很多，可以参考一些统计方法的工具数据。

4）对某些缺失率高，数据缺失值多但又很重要的数据，需要和业务人员了解，是否可以通过其他渠道重新取数。

2.数据值不匹配

1）清洗内容中有不合逻辑的字符

最典型的就是头、尾、中间的空格，也可能出现姓名中存在数字符号、出现汉字等问题。这种情况下，需要以半自动校验半人工方式来找出可能存在的问题，并去除不需要的字符。

2）内容和该字段应有内容不符

经常在处理埋点数据时会发现某个字段内容乱码等，通常过滤掉，但该问题特殊性在于：并不能简单的以删除来处理，因为成因有可能是数据解析错误，也有可能是在数据在记录到客户本地时就发生了错误（平台），因此要详细识别、分类处理问题。

这部分的内容往往需要人工处理，尽量细致地检查，不要遗漏。

3.数据重复

数据集中的重复值包括以下两种情况：

1）数据值完全相同的多条数据记录，这是最常见的数据重复情况。

2）数据主体相同，但一个属性匹配到不同的多个值。

去重的主要目的是保留能显示特征的唯一数据记录，但当遇到以下几种情况时，不建议去重。

a.重复记录用于分析演变规律，例如因为系统迭代更新，某些属性被分配了不同值。

b.重复的记录用于样本不均衡处理，通过简单复制来增加少数类样本。

c.重复的记录用于检测业务规则问题，代表业务规则可能存在漏洞。

4.数据不合理

这类数据通常利用分箱、聚类、回归等方式发现离群值，然后进行人工处理。

5.数据字段格式不统一

整合多种来源数据时，往往存在数据字段格式不一致的情况，将其处理成一致的格式利于后期统一数据分析。

6.数据无用

由于主观因素影响，往往无法判断数据的价值，故若非必须，则不进行非需求数据清洗。

数据清洗的好处

1.提高数据质量：尤其是在数据准确性和可信度方面。

2.提升了分析的准确性：根据清洗后准确的数据能够提高分析结果的可靠性，减少决策错误。

3.支持业务决策：清洗后的数据能更加直观地反映业务情况，更加容易进行数据可视化的分析。

4.减少存储成本：通过删除重复和无关的数据，有效减少存储空间的浪费。

5.数据时效性：及时清洗数据可以确保数据的时效性，能够基于最新的数据做出及时的业务调整。

数据清洗的工具推荐

但是我们可以看到数据清洗的人力成本是比较高的，在真实场景中，数据情况往往会更错综复杂，如果不想经历上述基本的数据清洗手段，可以使用ETL工具来帮助简化数据处理流程，国内ETL产品中做的比较好的有FineDataLink（以下简称FDL）。FDL拥有低代码的优势，通过简单拖拽交互即可实现数据抽取、数据清洗、数据到目标数据库的全过程。简单操作即可完成数据清洗，省时省力。

FineDataLink是一款低代码/高时效的数据集成平台，它不仅提供了数据清理和数据分析的功能，还能够将清理后的数据快速应用到其他应用程序中。FineDataLink的功能非常强大，可以轻松地连接多种数据源，包括数据库、文件、云存储等，而且支持大数据量。此外，FineDataLink还支持高级数据处理功能，例如数据转换、数据过滤、数据重构、数据集合等。使用FineDataLink可以显著提高团队协作效率，减少数据连接和输出的繁琐步骤，使整个数据处理流程更加高效和便捷。

在这里插入图片描述

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述