数据清洗概念

最新推荐文章于 2024-07-11 14:43:09 发布

小葵花成长日记

最新推荐文章于 2024-07-11 14:43:09 发布

阅读量578

点赞数

原文链接：https://aws.amazon.com/cn/what-is/data-cleansing/

版权

数据清洗的概念

什么是数据清洗
数据清洗的重要性
如何验证数据是否干净

什么是数据清洗

数据清洗是为机器学习（ML）和商业智能（BI）应用程序准备原始数据的一个必不可少的过程。原始数据可能会包含许多错误，这可能会影响 ML 模型的准确性，并导致预测不正确和出现负面的业务影响。

数据清洗的关键步骤包括修改和删除不正确和不完整的数据字段、识别和删除重复信息和不相关数据，以及更正格式、缺失值和拼写错误。

数据清洗的重要性

当一家公司使用数据来推动决策制定时，使用相关、完整和准确的数据至关重要。但是，数据集通常包含一些错误，必须在分析之前将它们删除。可能包括格式错误，例如错误的日期和货币，以及其他可能对预测产生重大影响的计量单位。异常值是一个特别值得关注的问题，因为它们总是会使结果发生偏差。其他常见的数据错误包括数据点损坏、信息缺失和印刷错误。干净的数据有助于生成高度准确的 ML 模型。

干净、准确的数据对于训练 ML 模型尤其重要，因为使用糟糕的训练数据集可能会导致部署模型做出错误预测。这是数据科学家花费大量时间为 ML 准备数据的主要原因。

如何验证数据是否干净

数据清洗过程包含几个必需的步骤，旨在识别和修复问题条目。第一步是分析数据以识别错误。这可能涉及通过使用规则、模式和约束来识别无效值的定性分析工具。下一步是删除或更正错误。

常见的数据清洗步骤包括修复：

重复数据：删除重复信息
不相关数据：确定特定分析的关键字段并从分析中删除不相关数据
异常值：异常值会显著影响模型性能，因此请识别异常值并确定适当的操作
缺失数据：标记并删除或估算缺失数据
结构错误：纠正印刷错误和其他不一致，并使数据符合通用模式或约定

小葵花成长日记 CSDN认证博客专家 CSDN认证企业博客

码龄7年

7: 原创

109万+: 周排名

98万+: 总排名

6047: 访问

: 等级

123: 积分

9: 粉丝

7: 获赞

2: 评论

33: 收藏

私信

关注

热门文章

分类专栏

科研方法论 2篇

最新评论

2023/12/16 Debug笔记
CSDN-Ada助手: 恭喜作者继续保持着博客的更新，对于Debug笔记的分享表示非常感谢。在接下来的创作中，或许可以考虑增加一些实际案例或者具体的问题解决过程，这样可以让读者更直观地理解和应用。希望作者在未来的创作中能够继续保持热情，为我们带来更多有见地的内容。谢谢！
人脸表情识别项目----代码
Morphling-ghk: 老哥，能分享下 tfrecord文件制作过程，或者文件吗。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。