大数据学习——金融行业大数据基于ETL过程的数据质量管理方法论

最新推荐文章于 2024-04-09 10:11:18 发布

祁峰sunny

最新推荐文章于 2024-04-09 10:11:18 发布

阅读量2.9k

点赞数 3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_15903671/article/details/94739753

版权

本文探讨了金融行业大数据在ETL过程中的数据质量管理方法，包括数据质量的定义、保障措施、清洗和稽核定义，以及如何优化检查效率。强调了数据完整性、一致性、准确性和及时性的重要性，并提出了数据质量分析工具、实时与非实时数据稽核工具的设计思路，以提升数据质量。

摘要由CSDN通过智能技术生成

金融行业大数据基于ETL过程的数据质量管理方法论

ETL是什么：

ETL——Extraction（抽取）+Trasformation（转换）+Loading(加载)

大数据平台的ETL过程抽象：

数据源特征：

数据源集中于成熟系统落地的高质量数据+标准格式的数据文件（用于数据集市）。
互联网金融额外拥有基于用户行为的日志型数据（主要用于客户画像和风险识别）
大数据平台各组件会产生非标准的日志型信息（主要用于监控）
少量的非标准数据源（合同扫描件等）。

贴源层特征：

与数据源保持较高一致性，自动化程度高
数据质量容易校验，但对错误零容忍

模型层特征：

按维度集中共性数据形成数据标准
核心在于数据映射关系和归并规则
数据清洗和稽核的重点、难点

集市层特征：

贴近于数据应用，有针对性的汇总维度
数据质量管理的最终目标

如何定义数据质量：

较通用的数据质量标准可关注以下四点：

完整性： 数据量校验 + 主键唯一（重复校验） + 空数据校验

一致性： 数据格式规范 + 字典范围

准确性： 业务规则校验 + 异常特征识别

及时性： 基于任务调度日志的时间效率监控

如何保障或提高终端（集市层）数据质量：

从ETL过程入手有两个关注点:

1. 集市层数据质量依赖于数据源数据质量：

需要引入“数据清洗”，提高数据源转换到模型层的数据质量

2. 集市层数据质量依赖于ETL过程数据流转的正确性：

需要引入“数据稽核”，保障每一层数据质量

3. 各层数据质量的分析依赖于监控ETL辅助工具的日志：

需要引入“日志处理”，及时反馈数据质量问题进行汇总分析

如何定义数据清洗和数据稽核：

数据清洗：预判问题。发现可自动调整的数据质量问题，自动干预。

最低0.47元/天解锁文章

关注

3
点赞
踩
37

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。