【数据挖掘】数据清洗

什么是数据清洗?

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

数据清洗的步骤
  • 缺失值的处理
  • 无效值的处理
  • 统一规格
  • 纠正错误和逻辑
  • 删除重复项
  • 转换构造
缺失值的处理

对于缺失值看重要性和缺失率。如果重要性高的,就需要从其他渠道补全,根据经验填满。如果没办法处理,就去除该数据,并在结果中说明。如果重要性低的,简单填充就好了,或者直接去除。

填充缺失内容
  • 以业务知识或经验推测填充缺失值
  • 以同一指标的计算结果(均值、中位数、众数等)填充缺失值
  • 以不同指标的计算结果填充缺失值(比如不知道生日但是知道身份证号)
无效值的处理

去除就好。

统一规格

由于数据源系统分散在各个业务线,不同业务线对于数据的要求、理解和规格不同,导致对于同一数据对象描述规格完全不同,因此在清洗过程中需要统一数据规格并将一致性的内容抽象出来。

纠正错误和逻辑

在多数据源的环境下,很可能存在数据异常或冲突的问题。去除不合理值,修正矛盾内容。

删除重复项

排序和判断相似度。

转换构造

数据变换是数据清理过程的重要步骤,是对数据的一个的标准的处理,几乎所有的数据处理过程都会涉及该步骤。数据转换常见的内容包括:数据类型转换、数据语义转换、数据值域转换、数据粒度转换、表/数据拆分、行列转换、数据离散化、数据离散化、提炼新字段、属性构造、数据压缩等。

待学。。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值