数据清洗学习笔记-----第一章数据清洗概述

数据清洗是处理数据仓库中不完整、错误或重复数据的过程,旨在转化为满足质量要求的 数据集。涉及数据分析、策略制定、错误检测与纠正,常用方法包括缺失值填充、重复值消除和错误值处理。
摘要由CSDN通过智能技术生成

一、背景介绍

  企业所拥有的数据仓库中的数据的来源是广泛的,数据类型也是多而繁杂的。因此数据经常不是我们想要的。数据可能存在一些不完整的情况或者有一些错误,重复的数据,那么我们需要对数据进行清洗来得到一个符合我们要求的数据集。

二、什么是数据清洗?

  数据清洗是从一个充满拼写错误、缺失值、异常值等问题的原始数据集通过数据转换、缺失处理等手段映射为一个符合质量要求的“新”数据集的过程。

  数据清洗的原理是利用相关技术将“脏”数据转化为满足质量要求的数据。

三、数据质量

  1、定义:数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。

  2.特点:数据质量会随时间发生变化;数据质量可以借助信息系统度量,但独立于信息系统存在;数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。

  3.评价指标:

准确性 要求数据中的噪声尽可能小
完整性 数据信息是否存在缺失的情况
简洁性 尽量选择数据重要的本质属性
适用性 尽量获取符合要求的数据

  4.问题分类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值