在进入正题前先分享一段段子,让我们以轻松愉悦的心情,进入知识的海洋。
段子: 最近在追女神,感觉差不多了,约她去公园散步,故意落后她10多米的距离,然后打电话给她,说了一大堆煽情的话,感动的女神都眼泪哗哗的,我以为我的表白肯定成功了,我就说:XXX,你要是答应做我媳妇,你就往前走一步,你后退一步的话我还会继续追你!就在我幻想女神肯定会马上跑过来抱住我那温馨画面的时候,你特么左右跳来跳去的是几个意思,我没笑,肯定没笑!
![9288600281d6a8a61aaa1cc351e296a8.png](https://i-blog.csdnimg.cn/blog_migrate/89153e781e4be2d0fa12c9d0bdfe74d5.jpeg)
一、产品介绍
Qualitis是一个数据质量管理系统,用于监控数据质量。其功能包括数据质量模型定义,数据质量结果可视化、可监控。数据质量管理服务提供一整套统一的流程来定义和检测数据集的质量并及时报告问题。
二、登录
![0214b136c722293c961312915af4b55d.png](https://i-blog.csdnimg.cn/blog_migrate/917810842d34cba809b250728c29b9be.jpeg)
输入用户名密码
三、创建项目
登录成功之后,点击左侧栏的规则配置。在其下的二级菜单中,点击我的项目,进入项目模块。
![ce0da82065b9bfe3de8f18e19b4996ce.png](https://i-blog.csdnimg.cn/blog_migrate/18e2e664fe7f86bb0deb673bc863db31.jpeg)
点击页面左上方的新增项目,弹出新增项目界面。
![f500ce046014cea40be5d71f4b4c2a30.png](https://i-blog.csdnimg.cn/blog_migrate/59319c3cb229b9b95c569446f3aea627.jpeg)
填入
1)项目名称
项目的名称,不能重复。
2)项目介绍
对该项目的简单介绍。
点击保存,即可创建一个新项目。
四、创建规则
保存项目之后,左下角可以创建规则。可以新建单表规则,自定义规则以及跨表规则。
4.1 单表规则创建示例
![90c4d11696e3f03337af6afee14d88db.png](https://i-blog.csdnimg.cn/blog_migrate/89fddff735365b7f8f88a2f889e393aa.jpeg)
点击新增技术规则,进入新增单表技术规则页面。
填入
1)规则名称
技术规则的名称,不可重复。
2)校验规则
系统的校验模板,选择不同的校验模板,可以进行不同的校验。
3)配置
选择模版中真正校验的数据源,选择数据源,会替换掉校验模版中的占位符,真正执行的SQL语句可以在SQL预览中查看。其中过滤条件可以填写系统提供的表达式,该表达式会在任务真正执行的时候,替换成实际的日期时间进行执行。
提供的表达式如下:
表达式当天日期替换值${yyyyMMdd}[-N(可选)]2018年12月17号20181217(前N天)${yyyy-MM-dd}[-N(可选)]2018年12月17号2018-12-17(前N天)${yyyyMMddHH}[-N(可选)]2018年12月17号15点2018121715(前N天)只减天数${yyyy/MM/dd}[-N(可选)]2018年12月17号2018/12/17(前N天)
4)是否告警
如果不进行告警,不会监控任务的输出结果。
如果选择告警,并在其中选择监控的输出结果,并设定监控的阈值,当结果超出告警阈值的时候,任务就是不通过校验的状态。
比较运行结果和阈值的方式有以下四种:(假设设定的阈值为x,本次任务的运行结果为r)
1.月波动:将任务的运行结果和本条技术规则本月的运行结果的平均值y进行比较,如果(1-x)*y<=r<=(1+x)*y,任务通过校验,否则任务不通过校验。
2.周波动:和月波动同理,计算的平均值是本周的平均值。
3.日波动:和月波动周波动同理,计算的平均值是本日的平均值。
4.固定值:和一个固定值进行比较,比较的方式有等于,大于等等,如果比较选择比较方式是等于,那么如果r=x,那么任务不通过校验。
![bd792748c75582ab0c9d9a159e839af4.png](https://i-blog.csdnimg.cn/blog_migrate/4c7aa082dfa34b6f0b61c243540062fc.jpeg)
如上图所示,上图创建了一个监控字段不为空的的技术规则。在SQL预览中可以看到实际执行的SQL语句。 质量校验那里,会监控字段为空的数目,如果字段为空的数目不为0,那么会不通过校验。
4.2 自定义规则创建示例
![2d9c4bb716e538d04f73057a175d3bfe.png](https://i-blog.csdnimg.cn/blog_migrate/f432320a46aac0a1bcb1d73b12c2d1f9.jpeg)
点击新增自定义技术规则,进入新增自定义技术规则页面。
填入
1)规则名称
技术规则的名称,不可重复。
2)输出的校验规则
校验的别的别名
3)统计函数
自定义SQL的统计函数
4)集群
选择提交任务的集群
5)保存不符合数据校验的结果
如果勾选,则会将没通过校验的数据提取出来并保存,否则不会保存
将要执行的SQL语句会在预览中显示。
4.3 跨表规则创建示例
![2a9c90b2df6ad618132ca0e3de987525.png](https://i-blog.csdnimg.cn/blog_migrate/6d0e3933f07970b49a5ce9887d6e4c01.jpeg)
点击新增跨表技术规则,进入新增跨表技术规则页面。
跨表技术规则能选择同一个集群中两张表,并对两张表进行数据校验。
跨表技术规则目前提供以下两种模版:
- 准确性校验 准确性校验可以比较两个表之间,所选字段的数据记录的准确性差异性。
- 通用校验 通过通用校验模版,可自定义跨表校验SQL。
以准确性校验为例子:
有表A和表B,数据分别如下:
A表
ColumnA1ColumnA2a1b2
B表
ColumnB1ColumnB2a1b3
如果对比ColumnA1和ColumnB1中的数据,则表A和表B完全一致。 如果对比ColumnA1和ColumnB1,以及ColumnA2和ColumnB2中的数据,则表A和表B中的数据有一条不一致。
配置方法如下所示:1.填写信息
![1f3334586c1ab078dd821979f8b0d0a4.png](https://i-blog.csdnimg.cn/blog_migrate/ea6d68335858acb96da996e747f54f95.jpeg)
2.选择需要比对的两张表
![a69bfe4fe99002d99259e5288b6d2b15.png](https://i-blog.csdnimg.cn/blog_migrate/2dd38deae7ee5a985247f065f733aa71.jpeg)
3.选择比对的字段
![fd612aa20231d7bdee877ee59c16905d.png](https://i-blog.csdnimg.cn/blog_migrate/326226c6a97c1f48f6f4449cdd65a6f1.jpeg)
五、任务执行
任务可以从两个纬度执行,项目纬度和规则纬度。
项目纬度进行任务执行,会将项目下所有规则都提交执行。执行方式如下图所示:
![42caba6f3456ad0690b034e79efb6264.png](https://i-blog.csdnimg.cn/blog_migrate/840386442e4b02d977b3ba3de0776025.jpeg)
规则纬度则是挑选规则进行任务执行。执行方式如下图所示:
![776068e8e5abacd04fc5dd803805be91.png](https://i-blog.csdnimg.cn/blog_migrate/70efcb33bbb233f7340d90a410e589ae.jpeg)
六、任务查看
点击左侧菜单栏中任务查询,即可进入任务界面。
![3b952670d80621be7d1daa691da5fe42.png](https://i-blog.csdnimg.cn/blog_migrate/644c680e4b9c9fad4811fd5f0c62900a.jpeg)
提交的任务可以在任务界面中查找到,点击某一任务即可进入任务详情界面。
![61ab94ca435bf717e686f158890e5b45.png](https://i-blog.csdnimg.cn/blog_migrate/b000cb437f9aa94bdae1e87816d081c0.jpeg)
任务的校验结果可以点击任务的状态进行查看。
![18b19836cff57745eac8003c1aed5b46.png](https://i-blog.csdnimg.cn/blog_migrate/fa2004079ef78647ba6ff341339e5d3b.jpeg)