数据清洗之数据清洗概述

最新推荐文章于 2024-09-09 00:01:32 发布

硪行硪是

最新推荐文章于 2024-09-09 00:01:32 发布

阅读量2.3k

点赞数 1

分类专栏：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30883339/article/details/103165506

版权

数据分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据分析学习笔记-----数据清洗之数据清洗概述

数据概述

从广泛的意义上来讲，数据是一个宽泛的概念，包括但不限于：

计算机中的0101代码
日常生活中的音乐，图片，视频
人类的语言，文字
…

我们要了解数据清洗，就需理解数据的内涵和外延

常见的数据有：

表格数据：关系记录、数据矩阵、向量、事务数据
图和网络：万维网、社交网络、分子结构
多媒体数据：文本、图像、视频、音频

其中，比较重要比较常见的分析数据是表格数据。这里重点介绍一些关于表格数据的内容。

表格数据

数据集（数据库）
由数据对象构成，一个数据对象表示一个实体
概念
- 样本（samples or examples）
- 实例（instances）
- 数据点（data points）
- 对象（objects）
- 元组（tuples）
数据对象由属性（attributes）及其值（value）构成
- 表格数据行为数据对象
- 表格数据列为特征
表格数据的特征
- 类型
  名义型（Nominal）
  布尔型（Binary）
  等级型（Ordinal）
  数值型（Numeric）

数据清洗的重要性

什么是数据清洗？数据清洗是从一个充满拼写错误，缺失值，异常值等问题的原始数据集（Raw Data）通过数据转换，缺失处理，异常处理等手段映射为一个符合质量要求的“新”数据集（Consistent Data）的过程。

数据清洗在大数据分析流程中的位置：

数据采集
数据解析
数据清洗
数据分析
数据应用

为什么要数据清洗？

从不同渠道获得的数据，集成在一起，组成新的数据集，需要进行数据清洗，来保证数据集的质量
数据分析算法对输入的数据集有要求
现实情况下的数据集质量不尽如人意，需要数据清洗

数据存在的问题：

单数据源
- 违背属性约束条件：日期，电话号码，身份证号等
- 属性违反唯一性：主键同一取值出现多次
- 数据更新不及时
- 数据存在噪音
- 数据存在拼写错误
- 数据存在相似，重复记录
多数据源
- 同一属性存在不同的名称：人的真实姓名和绰号
- 同一属性存在不同的定义：字段的长度测量单位，类型不一致
- 数据存在重复，拼写错误
- 数据的汇总时间不一致：按照年度，季度，月度统计
- 数据的存储单位不一致：按照GB，TB为单位存储

数据质量评估

如何评估数据的质量？
常用的评价数据质量的指标有以下几种：

准确性，一致性，时效性，完整性，数据重复，数据冗余
易用性和可维护性
相关性和可信度

准确性：考察数据集记录的信息是否存在异常或错误

业务数据通常存在特征取值缺失，特征缺失，主键缺失等问题
问题多发生在数据的源头，由各种主客观原因（主观录入错误，数据需求不明确，数据提供者故意隐瞒等）所导致
要获得高质量的数据集，需要把控好数据收集，数据录入的源头

一致性 ：考察数据是否符合统一规范，数据记录是否保持统一格式
数据一致性问题通常存在于数据整合阶段：

来自不同数据源的数据汇总在一起，特征的表述不相同
相同的特征名称在不同的数据源中代表不同的含义
- 特征名称不同，含义相同
- 特征名称相同，含义不同

时效性：考察数据从产生到分析的时间间隔，也称为数据的延时时长

数据集所代表的信息并不一定能正确描述当前的情形
爬取动态网页数据，由于网页内容，结构都在变化，获取的数据带有明显的时效性
考虑到数据获取的时间成本，数据分析的周期不能过长，会导致分析的结论失去现实意义

完整性：考察数据信息是否存在缺失，包括数据集的字段以及数据记录

数据重复：考察数据特征，数据记录的重复情况

易用性和可维护性：考察数据的使用和访问情况，以及数据的更新，维护状况

相关性和可信度：考察数据与实际业务的相关情况，考察数据的实用性

数据冗余：考察数据集特征之间的相关性
如果一个特征能由另外的特征推导出来，那么该特征可能是冗余的。比如，年龄可以由生日推算获得，那么年龄和生日之间存在冗余。使用定量的相关分析考察特征之间的冗余程度

离散型特征之间的冗余程度：卡方检验
连续型特征之间的冗余程度：相关系数

数据清洗的主要内容

数据初步处理

使用Python的标准库或者第三方库读入数据，或者将数据读入数据库
使用数据可视化手段观察数据的取值分布情况
对数据进行整合或分组

缺失值处理

确定缺失值的范围，以及所占比例
去除不需要的特征
使用缺失值填补等方法对缺失值进行填

异常值处理

检测异常值：基于统计，距离，密度的检测方法，复杂方法如孤立森林
处理异常值：删除异常值
保留异常值：选择鲁棒性更强的学习算法

数据转换

数据的格式进行统一：不同数据文件格式的转换
数据去重：去除重复的数据记录，提高算法运行效率
数据标准化：消除数据单位，量纲不同带来的影响
数据离散化：将连续型数据转换为离散型数据，增强模型对于异常值的鲁棒性

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。