四.Apache Griffin基于Hive batch批数据的质量监控实战

最新推荐文章于 2023-06-01 22:57:46 发布

VIP文章 ZhaoHY KeepRunning

最新推荐文章于 2023-06-01 22:57:46 发布

阅读量621

点赞数 1

分类专栏：数据质量监控工具-Apache Griffin 文章标签：数据库 hadoop spark kafka 数据挖掘

本文链接：https://blog.csdn.net/weixin_43160819/article/details/118108164

版权

数据集

此案例适用于基于hive，HDFS等批数据作为数据源进行数据质量监控。

假设我们有一个数据集（demo_src），按小时划分，我们想知道每个小时的数据是什么样的。

为简单起见，假设两个数据集都具有与此相同的架构：

id                      bigint                                      
age                     int                                         
desc                    string                                      
dt                      string                                      
hour                    string

dt 和 hour 都是分区，

因为每天我们都有一个每日分区 dt（如 20180912），

每天我们有 24 小时的分区（例如 00、01、02、…、23）。

环境准备

为 Apache Griffin 测量模块准备环境，包括以下组件：

JDK (1.8+)
Hadoop (2.6.0+)
Spark (2.2.1+)
Hive (2.2.0)

有关以上组件的详细的配置过程，可以参考griffin/griffin-doc/deploy,本文假定以上环境均已配置完毕。
有关版本匹配的信息，可参考https://github.com/apache/griffin/blob/master/griffin-doc/deploy/measure-build-guide.md

构建 Apache Griffin 测量模块

1.在此处下载 Apache Griffin 源包。
2.解压源包。

unzip griffin-0.4.0-source-release.zip
cd griffin-0.4.0-source-release

3.构建 Apache Griffin jar

mvn clean install

并将构建的 apache griffin jar包移动到项目路径中

mv measure/target/measure-0.4.0.jar <work path>/griffin-measure.jar

数据准备

为了快速开始，我们生成一个hive数据表demo_src.

最低0.47元/天解锁文章

ZhaoHY KeepRunning

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
四.Apache Griffin基于Hive batch批数据的质量监控实战

数据集此案例适用于基于hive，HDFS等批数据作为数据源进行数据质量监控。假设我们有一个数据集（demo_src），按小时划分，我们想知道每个小时的数据是什么样的。为简单起见，假设两个数据集都具有与此相同的架构：id bigint age int desc
复制链接

扫一扫