Griffin
Apache Griffin 定位为大数据的数据质量监控工具,支持多种批处理数据源,其中支持hive就已经解决了在数仓领域遇到的数据质量控制的场景问题。
1 解决 数据质量监控 的思路:
模型驱动,基于目标数据集合或者源数据集,用户可以选择不同的数据质量维度来执行目标数据质量的验证。
2 支持两类数据源
1 批数据
2 准实时数据
3 可以做到的监控
1 度量
精确度、完整性、及时性、唯一性、有效性、一致性
2 异常检测
利用预先设置好的规则,检测出不合规的数据,提供不合规的数据下载
3 异常告警
通过邮件或门户报告数据质量问题
4 可视化检测
利用控制面板来展现数据质量的状态
5 实时性
可以实时进行数据质量检测,能够及时发现问题
6 可伸缩性
支持超大规模数据
7 自助服务
Griffin 提供了一个简洁易用的用户界面,可以管理数据资产和数据质量规则
4 Griffin架构
各部分的职责如下:
1 define 主要负责定义数据质量统计的维度,比如 时间、数据量、空值量、不重复的量、最大值、最小值
2 measure 主要负责执行统计任务,生成统计任务
3 analyze 主要负责保存与展示统计结果
5 Griffin 系统主要构成
- 数据收集处理层(data collection&processing layer)
- 后端服务层(backend service layer)
- 用户界面(user interface)
6 引入Griffin的目的
数据质量解决方案,实现数据一致性检查、空值统计等功能。
7 安装部署
Griffin的安装和部署需要以下环境:
- JDK (1.8 or later versions)
- MySQL(version 5.6及以上)
- Hadoop (2.6.0 or later)
- Hive (version 2.x)
- Spark (version 2.2.1)
- Livy(livy-0.5.0-incubating)
- ElasticSearch (5.0 or later versions)
具体的安装步骤可以参考官网:http://griffin.apache.org/docs/quickstart-cn.html