火山中台的使用

---------------------------------------------------------------准备工作---------------------------------

1. 创建 LAS Schema库 用来 ods dim dwd dwm 创建工作

数据地图 --> 库表管理 --> DB管理 --> LAS 新建

2. 创建专题设置  (将同一业务场景的表归纳整理)

数据地图 --> 库表管理 -->

左侧业务域管理

-->新建业务域

-->新建主题

-->新建产品线

-->新建专题

3.新建数据表  (这里进行 ods dim dwd dwm 表的创建)

数据地图 --> 表管理 -->新建LAS表

选择“DDL建表”,输入SQL,确认无误后,点击解析。ods

CREATE TABLE `ods`.`exam_event_df`(

    `exam_id` BIGINT COMMENT '考试id',

    `student_id` BIGINT COMMENT '学生id',

    `exam_grade_id` BIGINT COMMENT '年级id',

    `exam_subject_id` STRING COMMENT '学科id',

    `exam_time` STRING COMMENT '考试时间',

    `exam_score` STRING COMMENT '考试分数'

) PARTITIONED BY (`date` string COMMENT 'date',

   `hour` string COMMENT 'hour') TBLPROPERTIES (

    'is_starred' = 'false',

    'is_core' = 'true',

    'bytelake.index.type' = 'NON_INDEX',

    'bytelake.bms.enable' = 'true',

    'bytelake.payload.class.name' = 'org.apache.hudi.common.model.OverwriteWithLatestAvroPayload',

    'alias' = '考试过程表',

    'status' = '3',

    'bytelake.base.file.format' = 'PARQUET',

    'bytelake.column.family.enable' = 'false'

)

4.创建LAS采集器

数据发现采集器将便于您的LAS default集群数据对象同步到数据资产地图;

数据地图 ----> 数据发现 ---->LAS

5.创建数据源管理

项目管理 --> 配置信息 -->数据源管理  -->新建数据源 --> 进行连通性测试

-------------------------------------------------------------数仓的建设---------------------------------

1 管理控制台 ---> 数据开发

(导入数据->新建任务->编辑开发任务->任务调试运行->设置调度->提交发布->运维查看)

2.DataLeap数据开发内置了常用的LAS任务模板,您可自由通过

数据集成任务,这里将演示将外部数据同步到LAS

LAS 样例数据:从外部导入样例数据到LAS内表

LAS SQL:快速启动基于LAS引擎的离线开发任务;

3.新建子目录(在任务开发右侧的三个点)

在子目录 新建子目录ods、dim、dwd、dwm 4个子目录的创建

2创建数据集成任务

配置ods dim 同步任务

1)在ods目录后方点击新建任务

2)任务类型为离线数据集成

3)输入任务名称ods_exam_event_df,确认无误,点击确定。

4)选择数据源及目标的参数配置

5)字段映射,点击自动添加,检查同步字段,确认符合预期

6)期望最大并发数,这里填写10个

源端:

数据源类型:MYSQL

数据源名称:emr_rds_mysql

数据表:exam_event_df

分片字段:exam_id

同步方式:数据库直连(默认)

目标端:

目标类型:LAS

数据源名称:LAS_ODS

数据表:exam_event_df

分区设置:

按数据格式yyyymmdd或yyyy-mm-dd填写分区内容

3.调度配置

1)点击右侧调度设置-设置参数

执行频率:小时级

执行时间:全选

执行时刻:0 (可选0-59) 这里选择整点运行

2)确认数据集成资源组无误 private_res_workshop

3)依次点击保存,再点调试(运行成功后),提交上线

4)在实例下DB中预览下数据,显示已加载

使用相同方法,在dim文件夹下新建任务,将dim表同步到LAS

输入任务名称dim_student_info_df,确认无误,点击确定。

选择周期按天调度,执行时间为每天早上6:00

确认数据集成资源组private_res_workshop

数据调试后,保存提交上线

透视数据,显示目标表加载完成

4.创建HSQL任务加工

4.1 创建dwd任务

4.1.1 新建任务

1)进入数据开发、在dwd文件夹目录后方点击新建任务

2)在弹出的新建任务框中,选择数据开发->LAS->LAS SQL任务

3)输入任务名称dwd_action_exam_detail_df,任务描述填写”将ODS和DIM数据加工写入到DWD",确认无误,点击确定**。

4)配置任务信息,编写LAS SQL 语句

4.1.2 调度配置

1)点击右侧【调度设置】,执行时间设置成早上7点,选择直接回溯或谨慎回溯(取决创建项目时初始化配置情况)

因dwd表为加工后的核心数据,在任务需要重跑时,增加二次弹窗提醒确认

2)点击右侧调度设置,选择或LAS公共队列

3)配置依赖关系,点击推荐依赖(也可以选择手动依赖),平台将自动推荐ods和dim作为依赖。

4)点击数据调试

5)点击提交调试

6)显示运行成功

4.1.3 预览数据

预览目标表数据,是否准确写入数据

小技巧:使用智能IDE功能,快速跳转至数据地图预览目标表数据

方法介绍:

鼠标指针悬浮于目标表

windows按住control、Mac按住command

此时鼠标指针变成手抓形状,点击鼠标左键即可快速跳转

1)点击预览探查

2)显示数据已被写入

4.1.4 提交发布

1)点击提交上线

2)点击确认提交

3)显示任务上线成功,上线成功后的任务图标将显示为绿色

点击【查看启动详情】将直接进入-离线任务运维

点击【设置运行监控】将直接进入-运行监控设置

4.2 创建dwm任务

4.2.1 新建任务

1)在dwm目录后方点击新建任务

2)在弹出的新建任务框中,选择数据开发->LAS SQL任务

3)输入任务名称dwm_action_exam_summary_df,确认无误,点击【确定】。

4)配置任务信息,将dwd层数据计算写入到dwm层表dwm.dwm_action_exam_summary_df

4.2.2 调度配置

1)点击右侧调度设置,选择或LAS公共队列

2)配置依赖关系,点击手动依赖,输入关键词dwd,找到dwd_action_exam_detail_df作为依赖。

3)选择周期按天调度,执行时间为每日早上8:00

4)依次点击【保存】和【调试】按钮

5)确认业务日期,点击提交

6)显示运行成功

4.2.3 预览数据

1)使用IDE快捷键跳转到数据地图

2)显示指标插入计算完成

4.2.4 提交发布

1)在浏览器开发窗口下,点击提交上线

2)显示任务上线完成

--------------------------------------------------------任务运维---------------------------------

1 数据回溯

数据回溯通俗来说即对任务重跑操作,通过对dwd任务及下游关联任务链发起回溯,对谨慎回溯提醒进行确认后执行。

1)点击顶导「运维中心」->离线任务运维,进行接下来的数据回溯工作。

2)在离线任务运维->数据回溯->发起的中,点击新建数据回溯。

3)在数据回溯配置界面,选择回溯任务的配置信息,

回溯范围:单任务及其下游

回溯任务:dwd_action_exam_detail_df

回溯业务时间:2022-08-09(T-1)

下游自依赖任务:按照完整依赖设置获取回溯实例

指定运行时段:否

提升回溯优先级:否

回溯任务选择:(全部勾选)

此时,即可将dwd_action_exam_detail_df及其所有的下游任务dwm任务,进行整体回溯,确认输入信息无误,点击下一步

4)根据前期dwd的配置,在dwd「谨慎回溯」配置界面,点击确认动作:

5)在回溯任务配置界面,设置任务信息:

最大并行:2(此参数为任务并发量,按需设置即可)

回溯原因:数据刷新重跑任务

确认无误,点击确定。

6)提交操作成功后,发起回溯

7)状态显示完成及进度显示,更多细节请点击查看详情

2 临时查询

临时查询有助于您随时探查和临时处理数据加工逻辑,也可以直接将临时查询转换为开发任务

1)点击顶导任务开发,重新回到数据开发界面。

2)在左侧列表中选择临时查询标签,点击“新建查询”。

3)更新引擎选择 LAS、名称和保存地址,点击确定,进入临时查询界面。

4)左侧点击进入数据库,搜索目标表 student_info_df,点击全选字段。点击「生成使用语句」,编辑器将自动生成sql语句

5)在where条件中筛选条件变量date输入常量分区yyyymmdd 点击运行,数据结果中显示运行成功。

3 任务运维

因dwm_action_exam_summary_df作为叶子节点的核心任务,产出的数据时间尤为重要。

需设置任务失败/超时告警提醒、通过【配置质量监控规则】将更有助于产出符合预期的数据,

下面将分2个步骤,

分别介绍运行监控和质量监控,当触达规则后,您将通过邮件,短信等方式收到告警信息。

注意:一个监控规则可复用给多个任务,以提高任务监控规则配置效率

1)点击顶导的运维中心->在离线任务运维界面,依次点击“监控规则”->“新建监控规则”

2)基本信息

规则名称:破线监控

规则对象:dwm_action_exam_summary_df

监控报警

失败告警:第 3 次运行失败

超时报警:运行耗时超过30分钟

5分钟后仍未开始运行(例如:正常8点运行,8:05仍未启动任务)

10分钟后任务未结束 (例如:正常8点运行,8:10分任务还没结束)

15分钟后任务仍未成功 (例如:正常8点运行,8:15分任务处于未启动运行等状态,但未显示成功)

接收人

demo02

报警设置

报警形式:普通

发送方式:邮件(创建账号时设置的邮箱地址)

发送次数:1

发送间隔:5min

免打扰时段:关闭

确认输入无误后,点击“提交”即可创建成功,当任务运行失败时,会发送邮件告警给demo02

4)显示配置完成

说明

您可对此运行规则开启、关闭、删除、操作人替换。针对规则继续添加其他任务等操作。

说明:

作为上游任务dwd_action_exam_detail_df,需要配置2个运行规则

复用之前配置好的破线规则

自定义1个紧急提醒规则

需要展示dwm任务的血缘依赖DAG图并查看操作日志

3.2 配置监控提醒

1)选择dwd运行监控

2)选择是,复用已创建好的破线规则

3)点击+号,继续创建监控规则2

4)配置截止北京时间8:10分,只要dwd任务没运行成功,则紧急报警,点击提交

5)在监控规则中,显示新规则已生效

6)您也可以在更多操作中,查看如果7天内,3天内的任务历史运行耗时情况

3.3 任务依赖DAG

作为dwm汇总核心指标,需要查看任务依赖情况是否有效且合理

1)点击dwm的任务DAG,查看任务依赖关系是否正确

2)状态栏显示属性,操作日志,代码等信息查询

4 实例运维

实例运维展示任务的运行实例信息,可实时查看实例状态变化,通过依赖、诊断和日志快速定位异常,同时可对实例进行重跑、置成功、终止等操作。

4.1 实例运行情况

1)点击左侧导航实例运维,可根据任务状态查看到实例运行情况包含

成功执行,等待中,运行中,失败 等不同实例状态

点击更多实例操作,可重跑或查看实例日志

2)全选实例,点下方【导出】按钮,点击确定

3)您可分享实例详细运行日志,并分享给其他成员

4)点击实例DAG

5)您可以看到实例上下游血缘信息,操作日志,属性,代码等

---------------------------------------------------------------数据安全---------------------------------

1 访问权限申请-只读表

假设因业务需要,demo03作为数据观察者,希望向demo02申请dwm考试汇总表的只读权限为期1年,因此需要申请权限。

1)使用demo03登录控制台,点击数据地图

2) 输入dwm在资产地图进行搜索

3)点击dwm考试汇总表

4)选择预览探查,点击申请权限

5)确认权限类型=只读,有效期365天,选择需求类型,填写详细原因,点击提交

6)确认申请信息无误,点击提交

7) 切换审批账户demo02登录,点击通过

8) 回到demo03,已可正常访问数据

2 授权安全管理-敏感列

假设因业务需要,demo03向demo02申请dwd考试过程明细底表的数据,demo02认为dwd考试明细表中的student_name为敏感信息,不可以提供给demo03查看,

因此需要在DataLeap数据安全中设置敏感列,并通过授权形式开放给demo02访问。

1)使用demo02登录数据安全,在权限管理中对dwd表点击设置

2)点击新增敏感列

3)选择不开放,选择敏感列「Student_name」点击保存,确认

4)在授权管理中,点击授权详情

5)点击添获权方

6)选择用户名demo03,有效期180天,需求类型,详细原因,点击添加

7)显示对demo03 授权成功,且预期不开放敏感列student_name

8)使用demo03探查dwd底表明细,此时dwd整表对demo03可见

9)点击数据预览,student_name信息已隐藏

---------------------------------------------------------------数据地图---------------------------------

1 数据专题查看

查看ARK教育专题,盘点整个教育专题数仓的建设情况

搜索dwd.dwd_action_exam_detail_df表,查看表的详情信息并预览探查。

1)用demo02从数据地图查看专题内容建设情况,从控制台选择数据地图,在顶导单击【数据专题】标签,单击进入专题“ARK演示”

2)单击LAS目录标签,显示此专题下的数仓表建设情况

3)单击订单事实表dwd.dwd_action_exam_detail_df后,显示表基本信息和字段信息详情,可继续单击

4)可根据需要向下深入检索资产详细情况,例如生产信息,查看运行情况,脚本信息,任务情况

5)单击预览探查按钮,默认预览此表内的10行数据,查看数据情况或查看DDL脚本

6)显示脚本信息情况

2 数据血缘分析

期望找到这张dwd表的上下游依赖关系,可视化方式验证血缘是否符合预期

仍以刚才的订单事实表dwd.dwd_action_exam_detail_df为例,查看这张表的上下游血缘关系

1)单击血缘关系。此处默认以表格视图方式展示。我们单击可视化图表方式查看

2)单击可视化图表,展示此dwd数据表的上下游依赖关系,根据范围1-5选择血缘图谱需要展示的层级

3)如需将血缘关系下载到本地,单击下载按钮,将以csv文件格式保存到本地磁盘

4)追加属性展示,如表热度,是否在线,SAL登记信息

5)选择列试图模式,输入查询字段student_name,可查看dwd表字段来自上游dim维表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值