第一章（简述数据清洗的基本流程）

七安☆

已于 2022-10-30 10:51:18 修改

阅读量4.8k

点赞数

文章标签：数据挖掘人工智能

于 2022-10-30 10:41:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_69235938/article/details/127596425

版权

前言
近年来，大数据技术掀起了计算机领域的一个新浪潮，无论是数据挖掘、数据分析、数据可视化，还是机器学习、人工智能，它们都绕不开“数据”这个主题。

由于海量数据的来源是广泛的，数据类型也是多而繁杂的，因此数据中会夹杂着不完整、重复以及错误的数据，如果直接使用这些原始数据，会严重影响数据决策的准确性和效率。因此，对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。

1.1 数据清洗的背景
当今时代，企业信息化的要求越来越迫切。对于企业的决策者来说，正所谓“垃圾进垃圾出( garbage in, garbage out)”--如果作为决策支持的数据仓库存放的数据质量达不到要求将直接导致数据分析和数据挖掘不能产生理想的结果，甚至还会产生错误的分析结果，从而误导决策。因此，我们需要对数据仓库中的数据进行相关清洗操作，得出可靠、可准确反映企业实际情况的数据，用以支持企业战略决策。

1.1.1 数据质量概述
数据质量是指在业务环境下，数据符合数据消费者的使用目的，能满足业务场景具体需求的程度。在不同的业务场景中，数据消费者对数据质量有各自不同的观点。从适用性角度来说，数据质量是一个相对的概念（与决策有关）。不同的决策者对数据质量的高低要求也是不同的。对于一个无关的数据，即使质量很高，对决策也起不到任何作用。

数据质量的显著特点如下：

“业务需求”会随时间变化，数据质量也会随时间发生变化；

数据质量可以借助信息系统质量，但独立于信息系统存在；

最低0.47元/天解锁文章

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
第一章（简述数据清洗的基本流程）

由于海量数据的来源是广泛的，数据类型也是多而繁杂的，因此数据中会夹杂着不完整、重复以及错误的数据，如果直接使用这些原始数据，会严重影响数据决策的准确性和效率。因此，对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。