数据集
此案例适用于基于hive,HDFS等批数据作为数据源进行数据质量监控。
假设我们有一个数据集(demo_src),按小时划分,我们想知道每个小时的数据是什么样的。
为简单起见,假设两个数据集都具有与此相同的架构:
id bigint
age int
desc string
dt string
hour string
dt 和 hour 都是分区,
因为每天我们都有一个每日分区 dt(如 20180912),
每天我们有 24 小时的分区(例如 00、01、02、…、23)。
环境准备
为 Apache Griffin 测量模块准备环境,包括以下组件:
- JDK (1.8+)
- Hadoop (2.6.0+)
- Spark (2.2.1+)
- Hive (2.2.0)
有关以上组件的详细的配置过程,可以参考griffin/griffin-doc/deploy,本文假定以上环境均已配置完毕。
有关版本匹配的信息,可参考https://github.com/apache/griffin/blob/master/griffin-doc/deploy/measure-build-guide.md
构建 Apache Griffin 测量模块
1.在此处下载 Apache Griffin 源包。
2.解压源包。
unzip griffin-0.4.0-source-release.zip
cd griffin-0.4.0-source-release
3.构建 Apache Griffin jar
mvn clean install
并将构建的 apache griffin jar包移动到项目路径中
mv measure/target/measure-0.4.0.jar <work path>/griffin-measure.jar
数据准备
为了快速开始,我们生成一个hive数据表demo_src.