开源大数据数据质量监控调研

开源工具选择不多,目前了解到的就以下3种:

Qualitis

griffin

DolphinScheduler(最近有人上传了分支,支持数据质量监控功能)

1 Qualitis

腾讯微众银行开源,主要是看到依赖很多腾讯自己的大数据开源组件,感觉肯定很重了,运维弄不了,直接pass了。

2 Griffin 

ebay开源工具,调研的时候看到工具功能特别全,实际自己编译完成之后才知道有点坑。

编译了两个版本0.5.0,0.6.0,0.5版本需要自己对照源码去加Connector支持出hive以外的数据源。

0.6版本提供了JDBCBasedDataConnector。

griffin有以下不满足项目需求的点:

1 多数据源问题

griffin 0.6版本才有关于jdbc源的代码,目前文档较少,项目主要应用是mysql hive mongodb数据源整合,数据质量监控。目前看mongodb不支持。mysql整合需要配置,需熟悉一些griffin架构、源码才配置成功。

2 不支持邮件告警功能。

图表展示功能还可以,但是没有阈值监控报警。

3 依赖较多

下图为官网的griffin依赖,目前项目中没有用到livy 跟es,所以还需搭建这两个环境(livy还好,更像一个spark插件)

 3 DolphinScheduler

国内开源的工作流任务调度平台,个人感觉比zakaban、oozie好用,目前我们项目中调度都是使用海豚。调研数据质量监控看到一篇DolphinScheduler csdn官博的关于海豚支持数据质量监控的文章基于 DolphinScheduler 的数据质量检查实践。突然来了兴趣。

需下载github源码编译。目前在测试功能和测试是否对原有功能有所影响。目前看能满足项目中大部分数据质量监控功能。测试完毕准备上线。

对于我们项目目前缺点是仍然不支持非jdbc数据源。

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值