AI: 什么是机器学习的数据清洗（Data Cleaning）

HowieXue

已于 2023-03-23 19:24:18 修改

阅读量2.6w

点赞数 5

分类专栏： Machine Learning 文章标签：机器学习深度学习人工智能数据分析

于 2020-02-11 22:14:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HowieXue/article/details/104270918

版权

Machine Learning 专栏收录该内容

14 篇文章

订阅专栏

本文探讨了数据清洗的重要性，包括处理极端值、缺失值和重复数据，以及特征缩放的必要性。缩放特征值有助于加速模型训练，避免数值溢出，并确保每个特征得到适当权重。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

博主热门文章推荐：

数据清洗（Data Cleaning）

为什么要数据清洗？：一颗老鼠屎也会破坏掉一整个大规模数据集

数据清洗要达到的目标是什么？：目标让模型更加泛化，让数据更体现其价值，最好能清洗出特征数据，从而让模型更精确

在这里插入图片描述

缩放特征值(Scaling)

将特征数据归一化处理，即转换数据集的数值范围（也叫标准化数据），

缩放是指将浮点特征值从自然范围（例如 100 到 900）转换为标准范围（例如 0 到 1 或 -1 到 +1）。
如果特征集包含多个特征，则缩放特征可以带来以下优势：

帮助梯度下降法更快速地收敛。
帮助避免“NaN 陷阱”。在这种陷阱中，模型中的一个数值变成
NaN（例如，当某个值在训练期间超出浮点精确率限制时），并且模型中的所有其他数值最终也会因数学运算而变成 NaN。
帮助模型为每个特征确定合适的权重。如果没有进行特征缩放，则模型会对范围较大的特征投入过多精力。

处理极端、离群/缺省值、去重等

处理错误数据、重复数据、残缺数据缺省补齐等

如何最大限度降低这些极端离群值的影响?

对每个值取对数（对数缩放）
限制最大/最小值

数据分箱（Binning）

将特征值浮点数，分为几个范围，如32.3 32.5 为32-33范围，相应值为1
为了将纬度变为一项实用的预测指标，我们对纬度“分箱”
在这里插入图片描述

审查（Scrubbing）

我们假定用于训练和测试的所有数据都是值得信赖的。在现实生活中，数据集中的很多样本是不可靠的：

遗漏值。例如，有人忘记为某个房屋的年龄输入值。
重复样本。例如，服务器错误地将同一条记录上传了两次。
不良标签。例如，有人错误地将一颗橡树的图片标记为枫树。
不良特征值。例如，有人输入了多余的位数，或者温度计被遗落在太阳底下。

直方图是一种用于可视化集合中数据的很好机制。此外，收集如下统计信息也会有所帮助：

最大值和最小值
均值和中间值
标准偏差

了解数据

记住预期的数据状态。
确认数据是否满足这些预期（或者您可以解释为何数据不满足预期）。
仔细检查训练数据是否与其他来源（例如信息中心）的数据一致。

在这里插入图片描述

博主热门文章推荐：

一篇读懂系列：

LoRa Mesh系列：

网络安全系列：

嵌入式开发系列：

AI / 机器学习系列：

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

HowieXue 求打赏~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。