阿里云MVP Meetup 《云数据·大计算:海量日志数据分析与应用》之《数据质量监控》篇

原文链接:点击打开链接

摘要: 本手册为阿里云MVP Meetup Workshop《云计算·大数据:海量日志数据分析与应用》的《数据质量监控》篇而准备。主要阐述在使用大数据开发套件过程中如何将已经采集至MaxCompute上的日志数据质量进行监控,学员可以根据本实验手册,去学习如何创建表的监控规则,如何去订阅表等。

实验涉及大数据产品

实验环境准备

必备条件:

  • 开通大数据计算服务MaxCompute
  • 创建大数据开发套件项目空间

进入大数据开发套件,创建DataWorks项目空间

确保阿里云账号处于登录状态。

  • step1:点击进入大数据(数加)管理控制台>大数据开发套件tab页面下。
  • step2:点击右上角创建项目或者直接在项目列表-->创建项目,跳出创建项目对话框。
    1

选择相应的服务器时如果没有购买是选择不了会提示您去开通购买。数据开发、运维中心、数据管理默认是被选择中。

  • step3:勾选相应的服务单击 确认,跳转到下面的界面,填写相应的信息单击确认,创建项目完成。
    2

项目名需要字母或下划线开头,只能包含字母下划线和数字。
【注意】项目名称全局唯一,建议大家采用自己容易区分的名称来作为本次workshop的项目空间名称。

  • step4:单击进入项目跳转到下面的界面:
    进入大数据开发套件

数据质量

数据质量(DQC),是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。数据质量以数据集(DataSet)为监控对象,目前支持MaxCompute数据表和DataHub实时数据流的监控,当离线MaxCompute数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供了历史校验结果的管理,以便您对数据质量分析和定级。在流式数据场景下,数据质量能够基于Datahub数据通道进行断流监控,第一时间告警给订阅用户,并且支持橙色、红色告警等级,以及告警频次设置,以最大限度的减少冗余报警。

注:数据质量会产生额外的计算费用,在使用时请知晓。

新增表规则配置

若已完成《日志数据上传》、《用户画像》实验,我们会得到表:ods_raw_log_d、ods_user_info_d、ods_log_info_d、dw_user_info_all_d、rpt_user_info_d。在数据质量中可以看到这些表的信息,我们可以针对已有的表进行数据质量的监控。
image

选择ods_raw_log_d表,点击配置监控规则,会进入如下页面。
image

我们可以回顾一下 ods_raw_log_d 这张表的数据来源,由下图可见,ods_raw_log_d 这张表的数据来源是从ftp中获取到的日志数据,然后分区按照${bdp.system.bizdate}写入进表中。
image

对于这种每日的日志数据,我们可以配置一下表的分区表达式,分区表达式有如下几种,我们选择 ds=$[yyyymmdd-1] 这种表达式,有关调度表达式的详细解读,请参考文档调度参数
image

确认以后,可以见到如下界面,我们可以选择创建规则。
image
选择创建规则后,出现如下界面:
image

点击添加监控规则,会出现一个弹窗,来配置规则。
image

因为这张表的数据来源于FTP上的日志文件,所以我们可以配置监控表行数,相比1天、1周、1个月前波动率。选择完监控表行数后,可以选择表行数的波动率区间,以及规则的强弱等等。任务配置完点击批量保存即可。

注:强规则的红色报警会导致任务阻塞。

image

关联调度

数据质量支持任务关联调度,和调度任务绑定后,每次运行任务后,就会触发数据质量的检查。点击关联调度,配置规则与任务的绑定关系。
image
点击关联调度,可以与已提交到调度的节点任务进行绑定,我们会根据血缘关系给出推荐绑定的任务,也支持自定义绑定。
image

选中搜索结果后,点击添加,添加完毕后即可完成与调度节点任务的绑定。
image

关联调度后,表名后面的小图标会变成蓝色。
image

配置任务订阅

关联调度后,每次调度任务运行完毕,都会触发数据质量的校验,但是我们如何去跟进校验结果呢?数据质量支持设置规则订阅,可以针对重要的表及其规则进行设置订阅,设置订阅后会根据数据质量的校验结果,进行告警设置。如果数据质量校验出现异常,则会根据配置的告警策略进行通知。

点击订阅管理,设置接收人以及订阅方式,目前支持邮件通知及邮件和短信通知。
image
image
image

订阅管理设置完毕后,可以在我的订阅中进行查看及修改。
image

规则试跑

在规则配置时,右上角有一个节点试跑的按钮,可以在规则配置完毕后,进行规则校验,试跑按钮可立即触发数据质量的校验规则。
image

点击试跑按钮后,会提示一个弹窗,确认试跑日期。点击试跑后,下方会有一个提示信息,点击提示信息,可跳转至试跑结果中。
image

image

可根据试跑结果,来确认此次任务产出的数据是否符合预期。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值