大数据质量解决方案

最新推荐文章于 2022-09-23 13:32:20 发布

bigdata_ruiye

最新推荐文章于 2022-09-23 13:32:20 发布

阅读量1.8k

点赞数 1

分类专栏：数据质量文章标签：数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40766600/article/details/121426805

版权

数据质量专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Griffin

Apache Griffin 定位为大数据的数据质量监控工具，支持多种批处理数据源，其中支持hive就已经解决了在数仓领域遇到的数据质量控制的场景问题。

1 解决数据质量监控的思路：

模型驱动，基于目标数据集合或者源数据集，用户可以选择不同的数据质量维度来执行目标数据质量的验证。

2 支持两类数据源

1 批数据

2 准实时数据

3 可以做到的监控

1 度量

精确度、完整性、及时性、唯一性、有效性、一致性

2 异常检测

利用预先设置好的规则，检测出不合规的数据，提供不合规的数据下载

3 异常告警

通过邮件或门户报告数据质量问题

4 可视化检测

利用控制面板来展现数据质量的状态

5 实时性

可以实时进行数据质量检测，能够及时发现问题

6 可伸缩性

支持超大规模数据

7 自助服务

Griffin 提供了一个简洁易用的用户界面，可以管理数据资产和数据质量规则

4 Griffin架构

各部分的职责如下：

1 define 主要负责定义数据质量统计的维度，比如时间、数据量、空值量、不重复的量、最大值、最小值

2 measure 主要负责执行统计任务，生成统计任务

3 analyze 主要负责保存与展示统计结果

5 Griffin 系统主要构成

数据收集处理层（data collection&processing layer）
后端服务层（backend service layer）
用户界面（user interface）

6 引入Griffin的目的

数据质量解决方案，实现数据一致性检查、空值统计等功能。

7 安装部署

Griffin的安装和部署需要以下环境：

JDK (1.8 or later versions)
MySQL(version 5.6及以上)
Hadoop (2.6.0 or later)
Hive (version 2.x)
Spark (version 2.2.1)
Livy（livy-0.5.0-incubating）
ElasticSearch (5.0 or later versions)

具体的安装步骤可以参考官网：http://griffin.apache.org/docs/quickstart-cn.html

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据质量解决方案

GriffinApache Griffin 定位为大数据的数据质量监控工具，支持多种批处理数据源，其中支持hive就已经解决了在数仓领域遇到的数据质量控制的场景问题。1 解决数据质量监控的思路：模型驱动，基于目标数据集合或者源数据集，用户可以选择不同的数据质量维度来执行目标数据质量的验证。2 支持两类数据源 1 批数据 2 准实时数据3 可以做到的监控 1 度量精确度、完整性、及...
复制链接

扫一扫

专栏目录

bigdata_ruiye CSDN认证博客专家 CSDN认证企业博客

码龄7年

29: 原创

13万+: 周排名

219万+: 总排名

4万+: 访问

: 等级

539: 积分

85: 粉丝

14: 获赞

4: 评论

38: 收藏

私信

关注

热门文章

分类专栏

算法
hive 7篇
olap 1篇
CDH平台 3篇
Hadoop 1篇
数据质量 1篇
数据湖 1篇
Linux 4篇
java 1篇
Zookeeper 1篇
工具 6篇

最新评论

dbeaver
lingmen2000: 第一步：DBeaver 的正确发音是?
dbeaver
御风蒲公英: 这个安装和使用挺简单最恶心的问题是老是断开连接没法保持连接 5-6分钟不动就断了版本是社区版21.3 大佬知道嘛？用了快一年了都没找到合适的法子
git冲突解决方法
weixin_37763484: 谢谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。