第一章数据清洗概述

「已注销」

已于 2022-11-14 13:16:23 修改

阅读量310

点赞数 1

文章标签：数据库 java 算法

于 2022-11-14 13:15:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61820680/article/details/127845557

版权

数据清洗技术是提高数据质量的有效方法。这项技术是一个较新的研究领域，对大数据集的清洗工作需要花费很长的时间。由于不同的应用领域对数据清洗有不同的解释,因此数据清洗直到现在都没有一个公认、统一的定义。数据清洗主要应用于3个领域,即数据仓库领域、数据挖掘领域以及数据质量管理领域。

一.数据质量的特点：
“业务需求”会随时间变化，数据质量也会随时间变化。

数据质量可以借助信息系统度量，但独立于信息系统存在。

数据质量存在于数据的整个生命周期，随数据的产生而产生，随数据的消失而消失。

二.数据质量问题的分类：
⑴基于数据源的的“脏”数据分类
①单数据源
模式层（数据库的结构，即关系结构）
实例层（关系中具体存储的数据记录或元组）
②多数据源
⑵基于清洗方式的“脏”数据分类
①独立型“脏”数据
②依赖型“脏”数据：主要包括缺失数据和重复数据。

三.数据清洗的策略
1.一般清洗策略

1）手工清洗策略，即人工修改
2）自动清洗策略，通过专门的程序进行修改
3）特定应用领域的清洗策略，根据概率统计学原理检测并修改数值异常记录
4）与特定应用领域无关的清洗策略，根据相关算法检测并删除重复记录

2.混合的数据清洗策略

以自动清洗为主。

四.常见的数据清洗方法：
缺失值的清洗
1、忽略缺失值数据。
2、填充缺失值数据。
重复值的清洗
基本思想：排组和合并。
方法：相似度计算、基于基本近邻排序算法。
错误值的清洗
方法：①使用统计分析的方法识别可能的错误值（偏差分析、识别分析等）；②使用简单规则库（常识性规则、业务特定规则等）检测出错误值；③使用不同属性间的约束以及使用外部的数据检测和处理错误值。

五.数据清洗基本流程：
原始数据
↓
数据分析
↓
定义数据清洗的策略和规则
↓
搜寻并确定错误实例
↓
纠正发现的错误
↓
干净数据回流
↓
目标数据

「已注销」

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一章数据清洗概述

kettle
复制链接

扫一扫

「已注销」 CSDN认证博客专家 CSDN认证企业博客

码龄3年

9: 原创

-: 周排名

-: 总排名

1598: 访问

: 等级

93: 积分

1: 粉丝

1: 获赞

2: 评论

0: 收藏

私信

关注

热门文章

最新评论

第五章---数据清洗
CSDN-Ada助手: 非常感谢您分享的关于数据清洗的技术文章。我认为您可以继续写关于数据预处理的博客，比如数据清洗、数据去重、数据转化等，这样的技术文章对其他用户在数据处理过程中会非常有帮助。相信您的博客会有越来越多的读者。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
第七章---数据加载
CSDN-Ada助手: 推荐 MySQL入门技能树：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。