【产品规划】实现一个智能化的数据清洗工具(系列二)

数据清洗是数据分析过程中最基础的工作,也是最累、最繁琐的部分,不像数据挖掘、数据分析看起来那么光鲜,做起来枯燥乏味。当然,这也与数据清洗工具的自动化程度不高,需要人肉去完成大量的ETL开发工作有极大的关系。为了改善这种局面,可以让ETL工程师减少重复性的编码工作,将更多的精力投入到数据分析当中,更加有效地发挥人的聪明才智,提升数据价值。下面是加入了“智能化”元素的数据清洗流程图。构建数据质量...
摘要由CSDN通过智能技术生成

数据清洗是数据分析过程中最基础的工作,也是最累、最繁琐的部分,不像数据挖掘、数据分析看起来那么光鲜,做起来枯燥乏味。当然,这也与数据清洗工具的自动化程度不高,需要人肉去完成大量的ETL开发工作有极大的关系。为了改善这种局面,可以让ETL工程师减少重复性的编码工作,将更多的精力投入到数据分析当中,更加有效地发挥人的聪明才智,提升数据价值。下面是加入了“智能化”元素的数据清洗流程图。
在这里插入图片描述

  1. 构建数据质量探查规则。传统的数据质量分析(或探查)是需要人工分析数据字典、数据内容后,设计并配置相关的质量分析规则,包括完整性、唯一性、一致性、有效性、准确性等几个方面。这个过程费时费力,因此一般清洗前的数据质量分析都是手工完成的,由工程师根据经验编写SQL脚本完成分析。上面流程中的“生成数据质量探查规则”,可以根据源库的数据结构、数据字典、数据标准等,利用挖掘算法(语义分析、聚类算法等),识别出业务主键、业务关键字段、字段含义等,匹配内置的质量检查规则模板,自动生成所有表的质量探查规则。经人工检查完善后配置到系统中,形成数据质量探查任务;
  2. 数据质量报告。执行数据质量探查任务后生成报告,报告包括两方面的内容,一是对规则的满足情况,比如,某张表的某个字段有N条记录违反了完整性
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值