数据清洗

最新推荐文章于 2024-05-14 17:20:24 发布

南方惆怅客

最新推荐文章于 2024-05-14 17:20:24 发布

阅读量656

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/johnny_love_1968/article/details/116206248

版权

数据清洗是机器学习中的关键步骤，包括预处理、缺失值处理、格式统一、逻辑错误修正、去除无关数据和关联性验证。通过清洗，可以消除原始数据中的错误、噪声和不一致性，提高模型训练的准确性和可靠性。例如，处理异常值、填充或删除缺失值、统一不同格式的数据，并修正逻辑矛盾，确保数据质量。

摘要由CSDN通过智能技术生成

数据清洗

文章目录

数据清洗

一.什么是数据清洗

我们在获得原始数据之后，并不是一股脑的把这些数据全都拿来使用，实际上，数据在整个机器学习阶段大致经历了这样一个流程：
（原始数据–>数据清洗（形成特征）–>数据预处理–>特征工程–>进入到模型进行训练）

为什么要经历这个流程？原因在于，最开始获得的原始数据，往往存在这样那样的问题，比如说有缺失值，或者干脆就有错误的值，或者前后矛盾的值，前后格式不一致的值，对于这些值，肯定会对训练结果产生影响，进而产生错误。即使不存在上述问题了，数据当中也难免会出现很多的噪声。这些噪声如果被训练的过多，也会成为过拟合的帮凶。

举个例子：我们假设有一个仪器，它专门检测汽车的尾气排放情况，但是由于仪器本身的缘故，在车子没有停稳的时候，经常会出现一些异常，比如说像下图这样：

在这里插入图片描述

那么很显然，那几个特别高耸的地方，就是出现了异常，数据清洗就是要把这些高耸的尖尖给去掉，形成下面这个样子：

在这里插入图片描述

关于数

最低0.47元/天解锁文章

南方惆怅客

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

南方惆怅客 CSDN认证博客专家 CSDN认证企业博客

码龄3年

61: 原创

30万+: 周排名

116万+: 总排名

18万+: 访问

: 等级

1195: 积分

178: 粉丝

296: 获赞

68: 评论

2072: 收藏

私信

关注

热门文章

分类专栏

Lua 2篇
Leetcode 4篇
numpy 1篇
Pandas 1篇
Python 6篇
matplotlib 1篇
个人笔记

最新评论

SVM简介
Oscar_hehe: 写的逻辑有点问题
SVM简介
m0_55988760: 为什么根据分割超平面理论更好的是实线呀不应该是虚线嘛，用间隔最大化，间隔最大的是虚线把
提升算法介绍
托米老师代号9527: 方差定义错了
SVM简介
冰饮料: 线性可分那里算出来的决策函数少了个x2
深度学习——反向传播（Backpropagation）
qq_41179111: 可否问一下，图是用什么画图工具画的

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。