数据清洗的自我理解

数据清洗

数据仓库的数据清洗

ODS层的数据清洗侧重点(ETL过程中的Transform):

ODS:Operation Data Store,业务操作数据存储,数据来源层
目的:保证与上游数据的一致性,避免数据重复或错误
流程:数据源->抽取、传输->文件格式转换、数据类型转换->加载到临时数据区->数据清洗->写入正式数据区ODS
清洗过程:

  • 常规数据:数据类型转换、数据去重、空值处理、空格去除、敏感数据加密
  • 脏数据:残缺、错误、重复、多个来源系统数据不一致,将过滤出的脏数据提交上游业务部门,决定剔除还是修复后重新抽取数据。

DWD层的数据清洗侧重点:

DWD:Data Warehouse Details,数据明细层
目的:增强数据可用性,数据仓库整体数据的规范化
流程:ods->数据清洗、计算、轻度汇总->dwd
清洗过程:

  • 剔除不可用数据:去重、去空、异常值处理、去除冗余字段
  • 数据规范化:即数值统一,结合字典表(dim)映射转换,编码(如标识符ID)、名称、boolean值统一,单位统一

DWS - Data Warehouse Service,数据服务层,也叫数据聚合层,进行高频使用维度的数据汇总,可加工成宽表,便于OLAP分析查询
ADS - Application Data Service,应用服务层,结果型数据,可用于报表展示、结果分析,一般存储于ES或导出至Mysql快速查询,或以业务接口形式提供出去

数据挖掘的数据清洗

另外就是数据挖掘,会做大量的数据清洗工作,数仓的重点是维护数据在数仓层级之间的流转,注重过程,而挖掘是结果导向的,清洗过程中会对数据做更多的修正工作,以便于更好的训练模型。
比如空值,数仓更可能将空值置为空字符串或0,而挖掘更可能将空值赋一个均值。
比如越界值,如年龄为-10或200,数仓更可能会将越界值统一处理成999这种无意义数值,而挖掘更可能处理成均值、众数值、标签值(儿童、老人)或手工赋值等。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值