数据质量监控工具-Apache Griffin
文章平均质量分 89
ZhaoHY KeepRunning
这个作者很懒,什么都没留下…
展开
-
Apache Griffin+Flink+Kafka实现流式数据质量监控实战
项目总览一. 组件及版本二. kafka数据生成脚本三. Flink流式处理四. Apache Griffin配置与启动五. 全局代码一. 组件及版本本文用的组件包括以下几个,是参考了官方案例,版本可以参考github以及里面的pom文件。本文假定以下环境均已安装好。JDK (1.8)MySQL(version 5.6)Hadoop (2.7.2)Hive (version 2.4)Spark (version 2.4.1)Kafka (version 0.11)Griffin (ver原创 2021-07-01 21:10:19 · 1314 阅读 · 4 评论 -
Apache Griffin调试各种报错总结
1、数据库报错 Table ‘quartz.DATACONNECTOR’ doesn’t exist2021-01-18 14:54:54.135 ERROR 122541 --- [http-nio-8081-exec-8] o.a.c.c.C.[.[.[.[dispatcherServlet] [175] : Servlet.service() for servlet [dispatcherServlet] in context with path [] threw exception [Re原创 2021-06-28 17:14:11 · 2360 阅读 · 2 评论 -
五. Apache Griffin UI界面化操作
1. Apache Griffin 用户界面操作Apache Griffin 是一种开源数据质量解决方案,适用于流式或批处理数据上下文中任何规模的分布式数据系统。而且他还提供了基于Angular的界面化操作,可以更加便捷的手动设置源数据,目标数据,监测指标,结果展示等功能。2. 过程登录系统后,可以按照以下步骤操作:首先,创建一个新的度量。然后,创建一个作业来定期处理该度量。最后,热图和仪表板将显示度量的数据图。2.1 数据源单击右上角的“DataAssets”来查看数据资产此处原创 2021-06-22 16:34:58 · 1206 阅读 · 3 评论 -
四.Apache Griffin基于Hive batch批数据的质量监控实战
数据集此案例适用于基于hive,HDFS等批数据作为数据源进行数据质量监控。假设我们有一个数据集(demo_src),按小时划分,我们想知道每个小时的数据是什么样的。为简单起见,假设两个数据集都具有与此相同的架构:id bigint age int desc原创 2021-06-22 15:34:48 · 681 阅读 · 0 评论 -
三. Apache Griffin基于Spark Streaming流数据质量监控实战
数据集假设我们在不同的 kafka 主题(源、目标)中有两个流数据集,我们需要根据源数据集知道目标数据集的数据质量如何。为简单起见,假设两个主题的数据都是 json 字符串,如下所示{"id": 1, "name": "Apple", "color": "red", "time": "2018-09-12_06:00:00"}{"id": 2, "name": "Banana", "color": "yellow", "time": "2018-09-12_06:01:00"}...环境准备原创 2021-06-22 15:23:21 · 569 阅读 · 1 评论 -
二. Apache Griffin快速入门
Apache Griffin 入门指南数据质量模块是大数据平台中必不可少的一个功能组件,Apache Griffin(以下简称Griffin)是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资产,从而提升数据的准确度、可信度。安装部署依赖准备JDK (1.8 or later versions)MySQL(version 5.6及以上)Hadoop (2.6.0原创 2021-06-22 15:06:05 · 573 阅读 · 0 评论 -
一.Apache Griffin概述
文章目录Apache Griffin概述一.背景二.框架结构三.支持的功能列表Apache Griffin概述Apache Griffin 是一个建立在 Apache Hadoop 和 Apache Spark 之上的数据质量服务平台 (DQSP)。 它提供了一个全面的框架来处理不同的任务,例如定义数据质量模型、执行数据质量测量、自动化数据分析和验证,以及跨多个数据系统的统一数据质量可视化。 它旨在解决大数据应用中数据质量领域的挑战。一.背景大数据应用当中有一个无法回避的问题,即数据质量的测量。针对原创 2021-06-22 14:44:31 · 3728 阅读 · 0 评论