大数据质量解决方案

Griffin

Apache Griffin 定位为大数据的数据质量监控工具,支持多种批处理数据源,其中支持hive就已经解决了在数仓领域遇到的数据质量控制的场景问题。

1 解决 数据质量监控 的思路:

        模型驱动,基于目标数据集合或者源数据集,用户可以选择不同的数据质量维度来执行目标数据质量的验证。

2 支持两类数据源

        1 批数据

        2 准实时数据

3 可以做到的监控

        1 度量

                精确度、完整性、及时性、唯一性、有效性、一致性

        2 异常检测

                利用预先设置好的规则,检测出不合规的数据,提供不合规的数据下载

        3 异常告警

                通过邮件或门户报告数据质量问题

        4 可视化检测

                利用控制面板来展现数据质量的状态

        5 实时性

                可以实时进行数据质量检测,能够及时发现问题

        6 可伸缩性

                支持超大规模数据

        7 自助服务

                Griffin 提供了一个简洁易用的用户界面,可以管理数据资产和数据质量规则

4 Griffin架构

        

 各部分的职责如下:

       1 define  主要负责定义数据质量统计的维度,比如 时间、数据量、空值量、不重复的量、最大值、最小值

        2 measure 主要负责执行统计任务,生成统计任务

        3 analyze  主要负责保存与展示统计结果

5 Griffin 系统主要构成

  • 数据收集处理层(data collection&processing layer)
  • 后端服务层(backend service layer)
  • 用户界面(user interface)

6 引入Griffin的目的 

     数据质量解决方案,实现数据一致性检查、空值统计等功能。

7 安装部署

Griffin的安装和部署需要以下环境:

  • JDK (1.8 or later versions)
  • MySQL(version 5.6及以上)
  • Hadoop (2.6.0 or later)
  • Hive (version 2.x)
  • Spark (version 2.2.1)
  • Livy(livy-0.5.0-incubating)
  • ElasticSearch (5.0 or later versions)

具体的安装步骤可以参考官网:http://griffin.apache.org/docs/quickstart-cn.html

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值