---------------------------------------------------------------准备工作---------------------------------
1. 创建 LAS Schema库 用来 ods dim dwd dwm 创建工作
数据地图 --> 库表管理 --> DB管理 --> LAS 新建
2. 创建专题设置 (将同一业务场景的表归纳整理)
数据地图 --> 库表管理 -->
左侧业务域管理
-->新建业务域
-->新建主题
-->新建产品线
-->新建专题
3.新建数据表 (这里进行 ods dim dwd dwm 表的创建)
数据地图 --> 表管理 -->新建LAS表
选择“DDL建表”,输入SQL,确认无误后,点击解析。ods
CREATE TABLE `ods`.`exam_event_df`(
`exam_id` BIGINT COMMENT '考试id',
`student_id` BIGINT COMMENT '学生id',
`exam_grade_id` BIGINT COMMENT '年级id',
`exam_subject_id` STRING COMMENT '学科id',
`exam_time` STRING COMMENT '考试时间',
`exam_score` STRING COMMENT '考试分数'
) PARTITIONED BY (`date` string COMMENT 'date',
`hour` string COMMENT 'hour') TBLPROPERTIES (
'is_starred' = 'false',
'is_core' = 'true',
'bytelake.index.type' = 'NON_INDEX',
'bytelake.bms.enable' = 'true',
'bytelake.payload.class.name' = 'org.apache.hudi.common.model.OverwriteWithLatestAvroPayload',
'alias' = '考试过程表',
'status' = '3',
'bytelake.base.file.format' = 'PARQUET',
'bytelake.column.family.enable' = 'false'
)
4.创建LAS采集器
数据发现采集器将便于您的LAS default集群数据对象同步到数据资产地图;
数据地图 ----> 数据发现 ---->LAS
5.创建数据源管理
项目管理 --> 配置信息 -->数据源管理 -->新建数据源 --> 进行连通性测试
-------------------------------------------------------------数仓的建设---------------------------------
1 管理控制台 ---> 数据开发
(导入数据->新建任务->编辑开发任务->任务调试运行->设置调度->提交发布->运维查看)
2.DataLeap数据开发内置了常用的LAS任务模板,您可自由通过
数据集成任务,这里将演示将外部数据同步到LAS
LAS 样例数据:从外部导入样例数据到LAS内表
LAS SQL:快速启动基于LAS引擎的离线开发任务;
3.新建子目录(在任务开发右侧的三个点)
在子目录 新建子目录ods、dim、dwd、dwm 4个子目录的创建
2创建数据集成任务
配置ods dim 同步任务
1)在ods目录后方点击新建任务
2)任务类型为离线数据集成
3)输入任务名称ods_exam_event_df,确认无误,点击确定。
4)选择数据源及目标的参数配置
5)字段映射,点击自动添加,检查同步字段,确认符合预期
6)期望最大并发数,这里填写10个
源端:
数据源类型:MYSQL
数据源名称:emr_rds_mysql
数据表:exam_event_df
分片字段:exam_id
同步方式:数据库直连(默认)
目标端:
目标类型:LAS
数据源名称:LAS_ODS
数据表:exam_event_df
分区设置:
按数据格式yyyymmdd或yyyy-mm-dd填写分区内容
3.调度配置
1)点击右侧调度设置-设置参数
执行频率:小时级
执行时间:全选
执行时刻:0 (可选0-59) 这里选择整点运行
2)确认数据集成资源组无误 private_res_workshop
3)依次点击保存,再点调试(运行成功后),提交上线
4)在实例下DB中预览下数据,显示已加载
使用相同方法,在dim文件夹下新建任务,将dim表同步到LAS
输入任务名称dim_student_info_df,确认无误,点击确定。
选择周期按天调度,执行时间为每天早上6:00
确认数据集成资源组private_res_workshop
数据调试后,保存提交上线
透视数据,显示目标表加载完成
4.创建HSQL任务加工
4.1 创建dwd任务
4.1.1 新建任务
1)进入数据开发、在dwd文件夹目录后方点击新建任务
2)在弹出的新建任务框中,选择数据开发->LAS->LAS SQL任务
3)输入任务名称dwd_action_exam_detail_df,任务描述填写”将ODS和DIM数据加工写入到DWD",确认无误,点击确定**。
4)配置任务信息,编写LAS SQL 语句
4.1.2 调度配置
1)点击右侧【调度设置】,执行时间设置成早上7点,选择直接回溯或谨慎回溯(取决创建项目时初始化配置情况)
因dwd表为加工后的核心数据,在任务需要重跑时,增加二次弹窗提醒确认
2)点击右侧调度设置,选择或LAS公共队列
3)配置依赖关系,点击推荐依赖(也可以选择手动依赖),平台将自动推荐ods和dim作为依赖。
4)点击数据调试
5)点击提交调试
6)显示运行成功
4.1.3 预览数据
预览目标表数据,是否准确写入数据
小技巧:使用智能IDE功能,快速跳转至数据地图预览目标表数据
方法介绍:
鼠标指针悬浮于目标表
windows按住control、Mac按住command
此时鼠标指针变成手抓形状,点击鼠标左键即可快速跳转
1)点击预览探查
2)显示数据已被写入
4.1.4 提交发布
1)点击提交上线
2)点击确认提交
3)显示任务上线成功,上线成功后的任务图标将显示为绿色
点击【查看启动详情】将直接进入-离线任务运维
点击【设置运行监控】将直接进入-运行监控设置
4.2 创建dwm任务
4.2.1 新建任务
1)在dwm目录后方点击新建任务
2)在弹出的新建任务框中,选择数据开发->LAS SQL任务
3)输入任务名称dwm_action_exam_summary_df,确认无误,点击【确定】。
4)配置任务信息,将dwd层数据计算写入到dwm层表dwm.dwm_action_exam_summary_df
4.2.2 调度配置
1)点击右侧调度设置,选择或LAS公共队列
2)配置依赖关系,点击手动依赖,输入关键词dwd,找到dwd_action_exam_detail_df作为依赖。
3)选择周期按天调度,执行时间为每日早上8:00
4)依次点击【保存】和【调试】按钮
5)确认业务日期,点击提交
6)显示运行成功
4.2.3 预览数据
1)使用IDE快捷键跳转到数据地图
2)显示指标插入计算完成
4.2.4 提交发布
1)在浏览器开发窗口下,点击提交上线
2)显示任务上线完成
--------------------------------------------------------任务运维---------------------------------
1 数据回溯
数据回溯通俗来说即对任务重跑操作,通过对dwd任务及下游关联任务链发起回溯,对谨慎回溯提醒进行确认后执行。
1)点击顶导「运维中心」->离线任务运维,进行接下来的数据回溯工作。
2)在离线任务运维->数据回溯->发起的中,点击新建数据回溯。
3)在数据回溯配置界面,选择回溯任务的配置信息,
回溯范围:单任务及其下游
回溯任务:dwd_action_exam_detail_df
回溯业务时间:2022-08-09(T-1)
下游自依赖任务:按照完整依赖设置获取回溯实例
指定运行时段:否
提升回溯优先级:否
回溯任务选择:(全部勾选)
此时,即可将dwd_action_exam_detail_df及其所有的下游任务dwm任务,进行整体回溯,确认输入信息无误,点击下一步
4)根据前期dwd的配置,在dwd「谨慎回溯」配置界面,点击确认动作:
5)在回溯任务配置界面,设置任务信息:
最大并行:2(此参数为任务并发量,按需设置即可)
回溯原因:数据刷新重跑任务
确认无误,点击确定。
6)提交操作成功后,发起回溯
7)状态显示完成及进度显示,更多细节请点击查看详情
2 临时查询
临时查询有助于您随时探查和临时处理数据加工逻辑,也可以直接将临时查询转换为开发任务
1)点击顶导任务开发,重新回到数据开发界面。
2)在左侧列表中选择临时查询标签,点击“新建查询”。
3)更新引擎选择 LAS、名称和保存地址,点击确定,进入临时查询界面。
4)左侧点击进入数据库,搜索目标表 student_info_df,点击全选字段。点击「生成使用语句」,编辑器将自动生成sql语句
5)在where条件中筛选条件变量date输入常量分区yyyymmdd 点击运行,数据结果中显示运行成功。
3 任务运维
因dwm_action_exam_summary_df作为叶子节点的核心任务,产出的数据时间尤为重要。
需设置任务失败/超时告警提醒、通过【配置质量监控规则】将更有助于产出符合预期的数据,
下面将分2个步骤,
分别介绍运行监控和质量监控,当触达规则后,您将通过邮件,短信等方式收到告警信息。
注意:一个监控规则可复用给多个任务,以提高任务监控规则配置效率
1)点击顶导的运维中心->在离线任务运维界面,依次点击“监控规则”->“新建监控规则”
2)基本信息
规则名称:破线监控
规则对象:dwm_action_exam_summary_df
监控报警
失败告警:第 3 次运行失败
超时报警:运行耗时超过30分钟
5分钟后仍未开始运行(例如:正常8点运行,8:05仍未启动任务)
10分钟后任务未结束 (例如:正常8点运行,8:10分任务还没结束)
15分钟后任务仍未成功 (例如:正常8点运行,8:15分任务处于未启动运行等状态,但未显示成功)
接收人
demo02
报警设置
报警形式:普通
发送方式:邮件(创建账号时设置的邮箱地址)
发送次数:1
发送间隔:5min
免打扰时段:关闭
确认输入无误后,点击“提交”即可创建成功,当任务运行失败时,会发送邮件告警给demo02
4)显示配置完成
说明
您可对此运行规则开启、关闭、删除、操作人替换。针对规则继续添加其他任务等操作。
说明:
作为上游任务dwd_action_exam_detail_df,需要配置2个运行规则
复用之前配置好的破线规则
自定义1个紧急提醒规则
需要展示dwm任务的血缘依赖DAG图并查看操作日志
3.2 配置监控提醒
1)选择dwd运行监控
2)选择是,复用已创建好的破线规则
3)点击+号,继续创建监控规则2
4)配置截止北京时间8:10分,只要dwd任务没运行成功,则紧急报警,点击提交
5)在监控规则中,显示新规则已生效
6)您也可以在更多操作中,查看如果7天内,3天内的任务历史运行耗时情况
3.3 任务依赖DAG
作为dwm汇总核心指标,需要查看任务依赖情况是否有效且合理
1)点击dwm的任务DAG,查看任务依赖关系是否正确
2)状态栏显示属性,操作日志,代码等信息查询
4 实例运维
实例运维展示任务的运行实例信息,可实时查看实例状态变化,通过依赖、诊断和日志快速定位异常,同时可对实例进行重跑、置成功、终止等操作。
4.1 实例运行情况
1)点击左侧导航实例运维,可根据任务状态查看到实例运行情况包含
成功执行,等待中,运行中,失败 等不同实例状态
点击更多实例操作,可重跑或查看实例日志
2)全选实例,点下方【导出】按钮,点击确定
3)您可分享实例详细运行日志,并分享给其他成员
4)点击实例DAG
5)您可以看到实例上下游血缘信息,操作日志,属性,代码等
---------------------------------------------------------------数据安全---------------------------------
1 访问权限申请-只读表
假设因业务需要,demo03作为数据观察者,希望向demo02申请dwm考试汇总表的只读权限为期1年,因此需要申请权限。
1)使用demo03登录控制台,点击数据地图
2) 输入dwm在资产地图进行搜索
3)点击dwm考试汇总表
4)选择预览探查,点击申请权限
5)确认权限类型=只读,有效期365天,选择需求类型,填写详细原因,点击提交
6)确认申请信息无误,点击提交
7) 切换审批账户demo02登录,点击通过
8) 回到demo03,已可正常访问数据
2 授权安全管理-敏感列
假设因业务需要,demo03向demo02申请dwd考试过程明细底表的数据,demo02认为dwd考试明细表中的student_name为敏感信息,不可以提供给demo03查看,
因此需要在DataLeap数据安全中设置敏感列,并通过授权形式开放给demo02访问。
1)使用demo02登录数据安全,在权限管理中对dwd表点击设置
2)点击新增敏感列
3)选择不开放,选择敏感列「Student_name」点击保存,确认
4)在授权管理中,点击授权详情
5)点击添获权方
6)选择用户名demo03,有效期180天,需求类型,详细原因,点击添加
7)显示对demo03 授权成功,且预期不开放敏感列student_name
8)使用demo03探查dwd底表明细,此时dwd整表对demo03可见
9)点击数据预览,student_name信息已隐藏
---------------------------------------------------------------数据地图---------------------------------
1 数据专题查看
查看ARK教育专题,盘点整个教育专题数仓的建设情况
搜索dwd.dwd_action_exam_detail_df表,查看表的详情信息并预览探查。
1)用demo02从数据地图查看专题内容建设情况,从控制台选择数据地图,在顶导单击【数据专题】标签,单击进入专题“ARK演示”
2)单击LAS目录标签,显示此专题下的数仓表建设情况
3)单击订单事实表dwd.dwd_action_exam_detail_df后,显示表基本信息和字段信息详情,可继续单击
4)可根据需要向下深入检索资产详细情况,例如生产信息,查看运行情况,脚本信息,任务情况
5)单击预览探查按钮,默认预览此表内的10行数据,查看数据情况或查看DDL脚本
6)显示脚本信息情况
2 数据血缘分析
期望找到这张dwd表的上下游依赖关系,可视化方式验证血缘是否符合预期
仍以刚才的订单事实表dwd.dwd_action_exam_detail_df为例,查看这张表的上下游血缘关系
1)单击血缘关系。此处默认以表格视图方式展示。我们单击可视化图表方式查看
2)单击可视化图表,展示此dwd数据表的上下游依赖关系,根据范围1-5选择血缘图谱需要展示的层级
3)如需将血缘关系下载到本地,单击下载按钮,将以csv文件格式保存到本地磁盘
4)追加属性展示,如表热度,是否在线,SAL登记信息
5)选择列试图模式,输入查询字段student_name,可查看dwd表字段来自上游dim维表