一百三十、海豚调度器——用DolphinScheduler定时调度HiveSQL任务

天地风雷水火山泽

已于 2023-07-25 15:46:46 修改

阅读量6.1k

点赞数 4

分类专栏： Hive 大数据调度工具文章标签：海豚调度器 hive 大数据

于 2023-07-17 19:23:00 首次发布

本文链接：https://blog.csdn.net/tiantang2renjian/article/details/131768797

版权

Hive 同时被 2 个专栏收录

49 篇文章

订阅专栏

大数据调度工具

16 篇文章

订阅专栏

一、目标

用海豚调度器对Hive数仓各层数据库的SQL任务进行定时调度。比如，DWD层脱敏清洗表的动态插入数据、DWS层指标表的动态插入数据

二、工具版本

1、海豚调度器：apache-dolphinscheduler-2.0.5-bin.tar.gz

2、Hive：apache-hive-3.1.2-bin.tar.gz

三、实施步骤

（一）在海豚调度器的数据源中心模块创建Hive各数据库的数据源

第一步，点击海豚调度器的数据源中心模块

第二步，点击创建数据源

第三步，编辑数据源，包括数据源类型、数据源名称、IP主机名、端口、用户名、数据库名

第四步，点击测试连接

第五步，连接测试弹出成功提示后，点击编辑

（二）在海豚调度器的项目管理模块创建项目

第一步，点击海豚调度器的项目管理模块

第二步，点击创建项目

第三步，编辑项目名称和所属用户

第四步，项目名称和所属用户编辑好后点击编辑

（三）点击创建好的项目，在工作流定义模块中创建工作流

第一步，点击创建好的项目

第二步，在项目中的工作流定义模块中，点击创建工作流

第三步，在工作流中，拖拽需要的SHELL控件，然后在SHELL节点编辑HiveSQL脚本

1、由于是通过HiveSQL编辑的脚本去定时调度，因此这里选择拖拽SHELL控件

2、在SHELL节点，修改节点名称以及描述

3、最重要的是，在SHELL节点编辑HiveSQL脚本。脚本内容如下：

#! /bin/bash
source /etc/profile

hive -e "
use hurys_dc_dws;

set hive.vectorized.execution.enabled=false;
set hive.auto.convert.join=false;
set mapreduce.map.memory.mb=10150;
set mapreduce.map.java.opts=-Xmx6144m;
set mapreduce.reduce.memory.mb=10150;
set mapreduce.reduce.java.opts=-Xmx8120m;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.dynamic.partition=true;
set hive.exec.parallel=true;
set hive.support.concurrency=false;
set mapreduce.map.memory.mb=4128;
set hive.vectorized.execution.enabled=false;

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions.pernode=1000;
set hive.exec.max.dynamic.partitions=1500;

insert overwrite table dws_queue_dynamic_statistics_30min partition(day)
select
t1.device_no,
t1.create_time,
case when minute(create_time ) >= 30 then
concat(substr(create_time, 1, 14), '30:00') else
concat(substr(create_time, 1, 14), '00:00')end as start_time,
t1.lane_no,
t2.name,
t3.direction,
t1.queue_count,
t1.queue_len,
t1.day
from hurys_dc_dwd.dwd_queue_dynamic as t1
right join hurys_dc_dws.dws_device_name as t2
on t2.device_no = t1.device_no
right join hurys_dc_dws.dws_device_direction as t3
on t3.device_no = t1.device_no
where t1.create_time is not null
group by t1.device_no, t1.create_time,t1.lane_no, t2.name, t3.direction, t1.queue_count, t1.queue_len, t1.day
"