调度工具（ETL+任务流）

最新推荐文章于 2024-07-16 08:45:00 发布

didoushi0674

最新推荐文章于 2024-07-16 08:45:00 发布

阅读量2.5k

点赞数

文章标签：数据库 shell 开发工具

原文链接：http://www.cnblogs.com/tjp0210/p/11456406.html

版权

1.区别ETL作业调度工具和任务流调度工具

kettle是一个ETL工具，ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程）。
kettle中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。
所以他的重心是用于数据

oozie是一个工作流，Oozie工作流是放置在控制依赖DAG（有向无环图 Direct Acyclic Graph）中的一组动作（例如，Hadoop的Map/Reduce作业、Pig作业等），其中指定了动作执行的顺序。
oozie工作流中是有数据流动的，但是重心是在于工作流的定义。

二者虽然都有相关功能及数据的流动，但是其实用途是不一样的。

2.ETL作业调度工具

2.1Sqoop调度工具

2.1.1列举出所有数据库

查看帮助

bin/sqoop help

列举出所有linux上的数据库

bin/sqoop list-databases --connect jdbc:mysql://localhost:3306 --username root --password root

列举出所有Window上的数据库

bin/sqoop list-databases --connect jdbc:mysql://192.168.22.36:3306 --username root --password root

查看数据库下的所有表

bin/sqoop list-tables --connect jdbc:mysql://localhost:3306/mysql --username root --password root

2.12导入数据库表数据到HDFS

（1）确定mysql服务启动正常

查询控制端口和查询进程来确定，一下两种办法可以确认mysql是否在启动状态

办法1：查询端口

$ netstat -tulpn

MySQL监控的TCP的3306端口，如果显示3306，证明MySQL服务在运行中

办法二：查询进程

可以看见mysql的进程

ps -ef | grep mysqld

没有指定数据导入到哪个目录，默认是/user/root/表名

bin/sqoop import \
--connect jdbc:mysql://192.168.77.137/zhjy \
--password 123456 \
--username root \
--table zf_jygz_thjc \
--m 1 \
--fields-terminated-by '\t'

或是

bin/sqoop import \
--connect jdbc:mysql://192.168.77.137/zhjy \
--password 123456 \
--username root \
--table zf_jygz_thjc \
--m 5 \
--split-by ZF_BH
--fields-terminated-by '\t'

原因:

如果表中有主键,m的值可以设置大于1的值;如果没有主键只能将m值设置成为1;或者要将m值大于1,需要使用--split-by指定一个字段

导入数据到指定目录

在导入表数据到HDFS使用Sqoop导入工具，我们可以指定目标目录。使用参数 --target-dir来指定导出目的地，使用参数—delete-target-dir来判断导出目录是否存在，如果存在就删掉

bin/sqoop import \
--connect jdbc:mysql://192.168.77.137/zhjy \
--username root \
--password 123456 \
--delete-target-dir \ --如果目录存在,将目录删除
--table zf_jygz_thjc \
--target-dir /user/zhjy \ --指定保存目录
--m 1 \
--fields-terminated-by '\t'

查询导入

bin/sqoop import \
--connect jdbc:mysql://192.168.72.133:3306/company \
--username root \
--password root \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--query 'select name,sex from staff where id <=1 and $CONDITIONS;'

提示：must contain '$CONDITIONS' in WHERE clause。

where id <=1 匹配条件

$CONDITIONS：传递作用。

如果 query 后使用的是双引号，则 $CONDITIONS前必须加转义符，防止 shell 识别为自己的变量。

--query时不能使用--table一起使用

需要指定--target-dir路径

导入到hdfs指定目录并指定要求

bin/sqoop import \
--connect jdbc:mysql://192.168.72.133:3306/company \
--username root \
--password root\
#提高数据库到hadoop的传输速度
--direct
--table staff \
#导入指定列,涉及到多列，用逗号分隔
--column id，sex \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
#指定分隔符
--fields-terminated-by '\t'
#指定导出存储格式
--as-textfile
#指定数据压缩(压缩,解压缩方式)
--compress
--compression-codec org.apache.hadoop.io.compress.SnappyCodec

数据导出储存方式（数据存储文件格式---（ textfil parquet）--as-textfileImports data as plain text (default)--as-parquetfile Imports data to Parquet Files）

导入表数据子集到HDFS

bin/sqoop import \
--connect jdbc:mysql://172.16.43.67:3306/userdb \
--username root \
--password root \
--table emp_add \
--target-dir /sqoop/emp_add \
-m 1  \
--delete-target-dir \
--where "city = 'sec-bad'"

导入关系表到Hive

第一步:导入需要的jar包

将我们mysql表当中的数据直接导入到hive表中的话，我们需要将hive的一个叫做hive-exec-1.1.0-cdh5.14.0.jar的jar包拷贝到sqoop的lib目录下

cp /export/servers/hive-1.1.0-cdh5.14.0/lib/hive-exec-1.1.0-cdh5.14.0.jar /export/servers/sqoop-1.4.6-cdh5.14.0/lib/

第二步:准备hive数据与表

当数据库中字符为空时的处理

--null-non-string ‘0’ 当不是字符串的数据为空的时候，用0替换

--null-string ‘string’ 当字符串为空的时候，使用string字符替换

第三步:开始导入

sqoop import \
--connect jdbc:mysql://10.2.111.87:3306/ehl_apmp \
--username root \
--password root \
--table zf_jygz_thjc \
-m 1 \
--hive-import \
--hive-database ods \
--hive-table ods_zf_jygz_thjc \
--fields-terminated-by '\t' \
--null-string '\\N' \
--null-non-string '\\N' \
--hive-partition-key 'datestr' \
--hive-partition-value '2019-12-31'

四步:hive表数据查看

导入到hive的参数

--hive-import 必须参数，指定导入hive

--hive-database hive库名

--hive-table hive表名

--fields-terminated-by hive的分隔符

--hive--overwrite 重写重复字段

--create-hive-table 帮创建好 hive 表，但是表存在会出错。不建议使用这个参数，因为到导入的时候，会与我们的字段类型有出入。

--hive-partition-key “dt” 指定分区表的字段

--hive-partition-value “2018-08-08” 指定分区表的值

导入关系表到hive并自动创建hive表

们也可以通过命令来将我们的mysql的表直接导入到hive表当中去

sqoop import --connect jdbc:mysql://10.2.111.87:3306/ehl_apmp \
--username root --password root \
--table $1 \
--hive-import \
--hive-database ods \
--create-hive-table \
--fields-terminated-by '\t' \
--null-string '\\N' \
--null-non-string '\\N' \
--split-by code \
-m 4

通过这个命令，我们可以直接将我们mysql表当中的数据以及表结构一起倒入到hive当中去

增量导入

--incremental<mode> 增量模式。

append id 是获取一个某一列的某个值。

lastmodified “2016-12-15 15：47：35” 获取某个时间后修改的所有数据

-append 附加模式

-merge-key id 合并模式

--check-column<column name> 用来指定一些列，可以去指定多个列；通常的是指定主键id

--last -value<last check column value> 从哪个值开始增量

==注意:增量导入的时候,一定不能加参数--delete-target-dir 否则会报错==

第一种增量导入方式(不常用)

1.Append方式

使用场景：有个订单表，里面每个订单有一个唯一标识的自增列id，在关系型数据库中以主键的形式存在。之前已经将id在0-1000之间的编号的订单导入到HDFS 中；如果在产生新的订单，此时我们只需指定incremental参数为append，--last-value参数为1000即可，表示只从id大于1000后开始导入。

（1）创建一个MySQL表

CREATE TABLE orders(
 o_id INT PRIMARY KEY AUTO_INCREMENT,
 o_name VARCHAR(255),
 o_price INT 
);
INSERT INTO orders(o_id,o_name,o_price) VALUES(1,'联想',5000);
INSERT INTO orders(o_id,o_name,o_price) VALUES(2,'海尔',3000);
INSERT INTO orders(o_id,o_name,o_price) VALUES(3,'雷神',5000);
INSERT INTO orders(o_id,o_name,o_price) VALUES(4,'JACK JONES',800);
INSERT INTO orders(o_id,o_name,o_price) VALUES(5,'真维斯',200);

（2）创建一个hive表（表结构与mysql一致）

bin/sqoop import \ 
--connect jdbc:mysql://192.168.22.30:3306/userdb \
--username root \
--password root \
--table emp \
--target-dir /sqoop/increment \
--num-mappers 1 \
--incremental append \
--check-column id \
--last-value 1202

注意：

append 模式不支持写入到hive表中

2.lastModify方式

此方式要求原有表有time字段，它能指定一个时间戳，让sqoop把该时间戳之后的数据导入到HDFS；因为后续订单可能状体会变化，变化后time字段时间戳也会变化，此时sqoop依然会将相同状态更改后的订单导入HDFS，当然我们可以只当merge-key参数为order-id，表示将后续新的记录和原有记录合并。

# 将时间列大于等于阈值的数据增量导入HDFS

sqoop import \
  --connect jdbc:mysql://192.168.xxx.xxx:3316/testdb \
  --username root \
  --password transwarp \
  --query “select order_id, name from order_table where \$CONDITIONS” \
  --target-dir /user/root/order_all \ 
  --split-by id \
  -m 4  \
  --incremental lastmodified \
  --merge-key order_id \
  --check-column time \
  # remember this date !!!
  --last-value “2014-11-09 21:00:00”

使用 lastmodified 方式导入数据，要指定增量数据是要 --append（追加）还是要 --merge-key（合并）last-value 指定的值是会包含于增量导入的数据中。

第二种增量导入方式(推荐)

==通过where条件选取数据更加精准==

bin/sqoop import \
--connect jdbc:mysql://192.168.22.30:3306/userdb \
--username root --password root \
--table emp \
--incremental append \
--where "create_time > '2018-06-17 00:00:00' and is_delete='1' and create_time <'2018-06-17 23:59:59'" \
--target-dir /sqoop/increment2 \
--check-column id \
--m 1

从RDBMS到HBase

bin/sqoop import 
--connect jdbc:mysql://192.168.22.30:3306/userdb \
--username root \
--password root \
--table emp \
--columns "id,name,sex" \
--column-family "info"
--hbase-create-table \
--hbase-row-key "id" \
--hbase-table "hbase_test" \
--split-by id \
--num-mappers 1

会报错

原因：sqoop1.4.6 只支持 HBase1.0.1 之前的版本的自动创建 HBase 表的功能。

解决方案：手动创建 HBase 表

hbase> create 'hbase_staff','info'

从HDFS到RDBMS

导出前，目标表必须存在与目标数据库中

默认操作是将文件中的数据使用insert语句插入到表中

更新模式下，是生成update语句更新表数据

HDFS导出到MySQL

数据是在HDFS当中的如下目录/sqoop/emp，数据内容如下

1201,gopal,manager,50000,TP,2018-06-17 18:54:32.0,2018-06-17 18:54:32.0,1
1202,manisha,Proof reader,50000,TP,2018-06-15 18:54:32.0,2018-06-17 20:26:08.0,1
1203,khalil,php dev,30000,AC,2018-06-17 18:54:32.0,2018-06-17 18:54:32.0,1
1204,prasanth,php dev,30000,AC,2018-06-17 18:54:32.0,2018-06-17 21:05:52.0,0
1205,kranthi,admin,20000,TP,2018-06-17 18:54:32.0,2018-06-17 18:54:32.0,1

第一步：创建MySQL表

CREATE TABLE `emp_out` (
 `id` INT(11) DEFAULT NULL,
 `name` VARCHAR(100) DEFAULT NULL,
 `deg` VARCHAR(100) DEFAULT NULL,
 `salary` INT(11) DEFAULT NULL,
 `dept` VARCHAR(10) DEFAULT NULL,
 `create_time` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,
 `update_time` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
 `is_delete` BIGINT(20) DEFAULT '1'
) ENGINE=INNODB DEFAULT CHARSET=utf8;

第二步：执行导出命令

通过export来实现数据的导出，将hdfs的数据导出到mysql当中去

bin/sqoop export \
--connect jdbc:mysql://172.16.43.67:3306/userdb \
--username root --password admin \
--table emp_out \
--export-dir /sqoop/emp \
--input-fields-terminated-by ","

实际案例:

使用shell脚本：

#!/bin/sh
export SQOOP_HOME=/usr/share/sqoop-1.4.4
hostname="192.168.1.199"
user="root"
password="root"
database="test"
table="tags"
curr_max=0

function db_to_hive(){

   ${SQOOP_HOME}/bin/sqoop import 
   --connect jdbc:mysql://${hostname}/${database} \
   --username ${user} \
   --password ${password}  \
   --table ${table}   \
   --split-by docid \
   --hive-import \
   --hive-table lan.ding  
--fields-terminated-by '\t' --incremental  append  --check-column docid --last-value ${curr_max}   
   result=`mysql -h${hostname} -u${user} -p${password} ${database}<<EOF 
select max(docid) from ${table};
EOF`
curr_max=`echo $result |awk '{print $2}'`
}

if [ $# -eq 0 ];then
   while true
   do
     db_to_hive
     sleep 120
   done
   exit
fi

笔者目前用sqoop把mysql数据导入到Hive中，最后实现命令行导入，sqoop版本1.4.7，实现如下

sqoop job --import --connect jdbc:mysql://10.4.20.93:3303 \--username user \--password 123456 \--query "select user_name ,user_id,identype from users where $CONDITIONS" \--hive-import \--hive-database haibian_odbc \--hive-table users \--split-by id \--fields-terminated-by '\01' \--lines-terminated-by '\n' \--target-dir /user/hive/tmp/users \--hive-delims-replacement ' ' --incremental append \--check-column id \--last-value 0

最后需要把这个导入搞成job，每天定时去跑，实现数据的自动化增量导入，sqoop支持job的管理，可以把导入创建成job重复去跑，并且它会在metastore中记录增值，每次执行增量导入之前去查询

创建job命令如下

sqoop job --create users -- import --connect jdbc:mysql://10.4.20.93:3303 \--username user \--password 123456 \--query "select user_name ,user_id,identype from users where $CONDITIONS" \--hive-import \--hive-database haibian_odbc \--hive-table users \--split-by id \--fields-terminated-by '\01' \--lines-terminated-by '\n' \--target-dir /user/hive/tmp/users \--hive-delims-replacement ' ' --incremental append \--check-column id \--last-value 0

创建完job就可以去执行它了

sqoop job --exec users

可以把该指令设为Linux定时任务，或者用Azkaban定时去执行它

shell脚本循环遍历日期，用于sqoop脚本

#! /bin/bash
first="$1"
second="$2"
while [ "$first" != "$second" ]
do
date=`date -d "$first" +"%Y-%m-%d"`
sqoop export \
--connect jdbc:mysql:// \
--username \
--password \
--table dwd_fact_front_orderinfo \
--export-dir /user/hive/warehouse/dwd.db/dwd_fact_front_orderinfo/day="$date" \
--input-null-non-string '\\N' \
--input-null-string '\\N' \
--input-fields-terminated-by "\t" \
--update-key id \
--update-mode allowinsert \
--m 1;
let first=`date -d "-1 days ago ${first}" +%Y%m%d`
done

2.2Kettle调度工具

3.任务流调度工具

3.1调度工具对比

（1）：对市面上最流行的两种调度器，给出以下详细对比，以供技术选型参考。总体来说，ooize相比azkaban是一个重量级的任务调度系统，功能全面，但配置使用也更复杂。如果可以不在意某些功能的缺失，轻量级调度器azkaban是很不错的候选对象。

（2）：功能：

　　两者均可以调度mapreduce,pig,java,脚本工作流任务；

　　两者均可以定时执行工作流任务；

（3）：工作流定义：

　　Azkaban使用Properties文件定义工作流；

　　Oozie使用XML文件定义工作流；

（4）：工作流传参：

　　Azkaban支持直接传参，例如${input}；

　　Oozie支持参数和EL表达式，例如${fs:dirSize(myInputDir)}；

（5）：定时执行：

　　Azkaban的定时执行任务是基于时间的；

　　Oozie的定时执行任务基于时间和输入数据；

（6）：资源管理：

　　Azkaban有较严格的权限控制，如用户对工作流进行读/写/执行等操作；

　　Oozie暂无严格的权限控制；

（7）：工作流执行：

　　Azkaban有两种运行模式，分别是solo server mode(executor server和web server部署在同一台节点)和multi server mode(executor server和web server可以部署在不同节点)；

　　Oozie作为工作流服务器运行，支持多用户和多工作流；

（8）：工作流管理：

　　Azkaban支持浏览器以及ajax方式操作工作流；

　　Oozie支持命令行、HTTP REST、Java API、浏览器操作工作流；

3.2 Azkaban调度工具

3.1.1启动solo-server

cd  /export/servers/azkaban-solo-server-0.1.0-SNAPSHOT

bin/start-solo.sh

3.1.2浏览器页面访问

浏览器页面访问

http://node03:8081/

3.3 Oozie调度工具

调度过程主要通过启动一个mr的任务，来执行其他任务，启动一个mr的任务，相当于是一个程序的入口

定义语言使用的是hpdl，就是xml语言

Oozie的架构

client客户端，提交我们的任务到oozie的服务端
oozie-server服务端，就是运行一个tomcat的实例，主要是用于接受客户端提交的任务
db数据库，服务端将客户端提交的任务都保存在db里面了，默认使用的db是h2，我们一般修改位mysql

oozie可以控制我们的任务，如果执行

3.3.1 启动与关闭

启动命令

cd /export/servers/oozie-4.1.0-cdh5.14.0

bin/oozied.sh start

关闭命令

bin/oozied.sh stop

3.3.2浏览器页面访问oozie

http://node03:11000/oozie/

3.3.3.使用oozie调度shell脚本

oozie安装好了之后，我们需要测试oozie的功能是否完整好使，官方已经给我们带了各种测试案例，我们可以通过官方提供的各种案例来对我们的oozie进行调度

第一步：解压官方提供的调度案例

oozie自带了各种案例，我们可以使用oozie自带的各种案例来作为模板，所以我们这里先把官方提供的各种案例给解压出来

cd /export/servers/oozie-4.1.0-cdh5.14.0

tar -zxf oozie-examples.tar.gz

第二步：创建我们的工作目录

在任意地方创建一个oozie的工作目录，以后我们的调度任务的配置文件全部放到oozie的工作目录当中去

我这里直接在oozie的安装目录下面创建工作目录

cd /export/servers/oozie-4.1.0-cdh5.14.0

mkdir oozie_works

第三步：拷贝我们的任务模板到我们的工作目录当中去

我们的任务模板以及工作目录都准备好了之后，我们把我们的shell的任务模板拷贝到我们oozie的工作目录当中去

cd /export/servers/oozie-4.1.0-cdh5.14.0

cp -r examples/apps/shell/ oozie_works/

第四步：随意准备一个shell脚本

cd /export/servers/oozie-4.1.0-cdh5.14.0

vim oozie_works/shell/hello.sh

注意：这个脚本一定要是在我们oozie工作路径下的shell路径下的位置

#!/bin/bash

echo "hello world" >> /export/servers/hello_oozie.txt

oozie的配置文件：

第一个配置文件job.properties：定义一些变量，例如我们的集群的hdfs的访问地址，mapreduce任务的提交地址。保存到本地磁盘

第二个配置文件workf.xml:定义我们的工作流，里面有一个个的action，一个action就是一个我们要执行的任务，需要读取job.properties的配置文件。上传到hdfs

hello.sh需要执行的脚本文件

第五步：修改模板下的配置文件

修改job.properties

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/shell

vim job.properties

nameNode=hdfs://node01:8020

jobTracker=node01:8032[a1]

queueName=default[a2]

examplesRoot=oozie_works[a3]

#注意这个参数，这个参数定义了我们workflow.xml所在的hdfs的路径

oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/shell

EXEC=hello.sh[a4]

修改workflow.xml

vim workflow.xml

<workflow-app xmlns="uri:oozie:workflow:0.4" name="shell-wf">

<job-tracker>${jobTracker}</job-tracker>

<name-node>${nameNode}</name-node>

<name>mapred.job.queue.name</name>

<value>${queueName}</value>

</property>

</configuration>

<file>/user/root/oozie_works/shell/${EXEC}#${EXEC}</file>

<capture-output/>

</shell>

</action>

${wf:actionData('shell-node')['my_output'] eq 'Hello Oozie'}

</case>

</switch>

</decision>

<message>Shell action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>

</kill>

<message>Incorrect output, expected [Hello Oozie] but was [${wf:actionData('shell-node')['my_output']}]</message>

</kill>

</workflow-app>

第六步：上传我们的调度任务到hdfs上面去

注意：上传的hdfs目录为/user/root，因为我们hadoop启动的时候使用的是root用户，如果hadoop启动的是其他用户，那么就上传到

/user/其他用户

cd /export/servers/oozie-4.1.0-cdh5.14.0

hdfs dfs -put oozie_works/ /user/root

第七步：执行调度任务

通过oozie的命令来执行我们的调度任务

cd /export/servers/oozie-4.1.0-cdh5.14.0

bin/oozie job -oozie http://node03:11000/oozie -config oozie_works/shell/job.properties -run

从监控界面可以看到我们的任务执行成功了

查看hadoop的19888端口，我们会发现，oozie启动了一个MR的任务去执行我们的shell脚本

3.3.4 使用oozie调度我们的hive

第一步：拷贝hive的案例模板

cd /export/servers/oozie-4.1.0-cdh5.14.0

cp -ra examples/apps/hive2/ oozie_works/

第二步：编辑hive模板

这里使用的是hiveserver2来进行提交任务，需要注意我们要将hiveserver2的服务给启动起来

修改job.properties

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/hive2

vim job.properties

nameNode=hdfs://node01:8020

jobTracker=node01:8032

queueName=default

jdbcURL=jdbc:hive2://node03:10000/default

examplesRoot=oozie_works

oozie.use.system.libpath=true

# 配置我们文件上传到hdfs的保存路径实际上就是在hdfs 的/user/root/oozie_works/hive2这个路径下

oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/hive2

修改workflow.xml

vim workflow.xml

<?xml version="1.0" encoding="UTF-8"?>

<workflow-app xmlns="uri:oozie:workflow:0.5" name="hive2-wf">

<job-tracker>${jobTracker}</job-tracker>

<name-node>${nameNode}</name-node>

</prepare>

<name>mapred.job.queue.name</name>

<value>${queueName}</value>

</property>

</configuration>

<jdbc-url>${jdbcURL}</jdbc-url>

<param>INPUT=/user/${wf:user()}/${examplesRoot}/input-data/table</param>

<param>OUTPUT=/user/${wf:user()}/${examplesRoot}/output-data/hive2</param>

</hive2>

</action>

<message>Hive2 (Beeline) action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>

</kill>

</workflow-app>

编辑hivesql文件

vim script.q

DROP TABLE IF EXISTS test;

CREATE EXTERNAL TABLE test (a INT) STORED AS TEXTFILE LOCATION '${INPUT}';

insert into test values(10);

insert into test values(20);

insert into test values(30);

第三步：上传工作文件到hdfs

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works

hdfs dfs -put hive2/ /user/root/oozie_works/

第四步：执行oozie的调度

cd /export/servers/oozie-4.1.0-cdh5.14.0

bin/oozie job -oozie http://node03:11000/oozie -config oozie_works/hive2/job.properties -run

第五步：查看调度结果

3.3.5 使用oozie调度MR任务

第一步：准备MR执行的数据

我们这里通过oozie调度一个MR的程序的执行，MR的程序可以是自己写的，也可以是hadoop工程自带的，我们这里就选用hadoop工程自带的MR程序来运行wordcount的示例

准备以下数据上传到HDFS的/oozie/input路径下去

hdfs dfs -mkdir -p /oozie/input

vim wordcount.txt

hello world hadoop

spark hive hadoop

将我们的数据上传到hdfs对应目录

hdfs dfs -put wordcount.txt /oozie/input

第二步：执行官方测试案例

yarn jar /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.14.0.jar wordcount /oozie/input/ /oozie/output

第三步：准备我们调度的资源

将我们需要调度的资源都准备好放到一个文件夹下面去，包括我们的jar包，我们的job.properties，以及我们的workflow.xml。

拷贝MR的任务模板

cd /export/servers/oozie-4.1.0-cdh5.14.0

cp -ra examples/apps/map-reduce/ oozie_works/

删掉MR任务模板lib目录下自带的jar包

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce/lib

rm -rf oozie-examples-4.1.0-cdh5.14.0.jar

第四步：拷贝我们自己的jar包到对应目录

从上一步的删除当中，我们可以看到我们需要调度的jar包存放在了

/export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce/lib这个目录下，所以我们把我们需要调度的jar包也放到这个路径下即可

cp /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.14.0.jar /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce/lib/

第五步：修改配置文件

修改job.properties

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce

vim job.properties

nameNode=hdfs://node01:8020

jobTracker=node01:8032

queueName=default

examplesRoot=oozie_works

oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/map-reduce/workflow.xml

outputDir=/oozie/output

inputdir=/oozie/input

修改workflow.xml

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce

vim workflow.xml

<?xml version="1.0" encoding="UTF-8"?>

<!--

Licensed to the Apache Software Foundation (ASF) under one

or more contributor license agreements. See the NOTICE file

distributed with this work for additional information

regarding copyright ownership. The ASF licenses this file

to you under the Apache License, Version 2.0 (the

"License"); you may not use this file except in compliance

with the License. You may obtain a copy of the License at

http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software

distributed under the License is distributed on an "AS IS" BASIS,

WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

See the License for the specific language governing permissions and

limitations under the License.

-->

<workflow-app xmlns="uri:oozie:workflow:0.5" name="map-reduce-wf">

<map-reduce>

<job-tracker>${jobTracker}</job-tracker>

<name-node>${nameNode}</name-node>

</prepare>

<name>mapred.job.queue.name</name>

<value>${queueName}</value>

</property>

<!--

<name>mapred.mapper.class</name>

<value>org.apache.oozie.example.SampleMapper</value>

</property>

<name>mapred.reducer.class</name>

<value>org.apache.oozie.example.SampleReducer</value>

</property>

<name>mapred.map.tasks</name>

</property>

<name>mapred.input.dir</name>

<value>/user/${wf:user()}/${examplesRoot}/input-data/text</value>

</property>

<name>mapred.output.dir</name>

<value>/user/${wf:user()}/${examplesRoot}/output-data/${outputDir}</value>

</property>

-->

<name>mapred.mapper.new-api</name>

</property>

<name>mapred.reducer.new-api</name>

</property>

<name>mapreduce.job.output.key.class</name>

<value>org.apache.hadoop.io.Text</value>

</property>

<name>mapreduce.job.output.value.class</name>

<value>org.apache.hadoop.io.IntWritable</value>

</property>

<name>mapred.input.dir</name>

<value>${nameNode}/${inputdir}</value>

</property>

<name>mapred.output.dir</name>

<value>${nameNode}/${outputDir}</value>

</property>

<name>mapreduce.job.map.class</name>

<value>org.apache.hadoop.examples.WordCount$TokenizerMapper</value>

</property>

<name>mapreduce.job.reduce.class</name>

<value>org.apache.hadoop.examples.WordCount$IntSumReducer</value>

</property>

<name>mapred.map.tasks</name>

</property>

</configuration>

</map-reduce>

</action>

<message>Map/Reduce failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>

</kill>

</workflow-app>

第六步：上传调度任务到hdfs对应目录

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works

hdfs dfs -put map-reduce/ /user/root/oozie_works/

第七步：执行调度任务

执行我们的调度任务，然后通过oozie的11000端口进行查看任务结果

cd /export/servers/oozie-4.1.0-cdh5.14.0

bin/oozie job -oozie http://node03:11000/oozie -config oozie_works/map-reduce/job.properties -run

3.3.6 oozie的任务串联

在实际工作当中，肯定会存在多个任务需要执行，并且存在上一个任务的输出结果作为下一个任务的输入数据这样的情况，所以我们需要在workflow.xml配置文件当中配置多个action，实现多个任务之间的相互依赖关系

需求：首先执行一个shell脚本，执行完了之后再执行一个MR的程序，最后再执行一个hive的程序

第一步：准备我们的工作目录

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works

mkdir -p sereval-actions

第二步：准备我们的调度文件

将我们之前的hive，shell，以及MR的执行，进行串联成到一个workflow当中去，准备我们的资源文件

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works

cp hive2/script.q sereval-actions/

cp shell/hello.sh sereval-actions/

cp -ra map-reduce/lib sereval-actions/

第三步：开发调度的配置文件

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/sereval-actions

创建配置文件workflow.xml并编辑

vim workflow.xml

<workflow-app xmlns="uri:oozie:workflow:0.4" name="shell-wf">

<job-tracker>${jobTracker}</job-tracker>

<name-node>${nameNode}</name-node>

<name>mapred.job.queue.name</name>

<value>${queueName}</value>

</property>

</configuration>

<file>/user/root/oozie_works/sereval-actions/${EXEC}#${EXEC}</file>

<capture-output/>

</shell>

</action>

<map-reduce>

<job-tracker>${jobTracker}</job-tracker>

<name-node>${nameNode}</name-node>

</prepare>

<name>mapred.job.queue.name</name>

<value>${queueName}</value>

</property>

<!--

<name>mapred.mapper.class</name>

<value>org.apache.oozie.example.SampleMapper</value>

</property>

<name>mapred.reducer.class</name>

<value>org.apache.oozie.example.SampleReducer</value>

</property>

<name>mapred.map.tasks</name>

</property>

<name>mapred.input.dir</name>

<value>/user/${wf:user()}/${examplesRoot}/input-data/text</value>

</property>

<name>mapred.output.dir</name>

<value>/user/${wf:user()}/${examplesRoot}/output-data/${outputDir}</value>

</property>

-->

<name>mapred.mapper.new-api</name>

</property>

<name>mapred.reducer.new-api</name>

</property>

<name>mapreduce.job.output.key.class</name>

<value>org.apache.hadoop.io.Text</value>

</property>

<name>mapreduce.job.output.value.class</name>

<value>org.apache.hadoop.io.IntWritable</value>

</property>

<name>mapred.input.dir</name>

<value>${nameNode}/${inputdir}</value>

</property>

<name>mapred.output.dir</name>

<value>${nameNode}/${outputDir}</value>

</property>

<name>mapreduce.job.map.class</name>

<value>org.apache.hadoop.examples.WordCount$TokenizerMapper</value>

</property>

<name>mapreduce.job.reduce.class</name>

<value>org.apache.hadoop.examples.WordCount$IntSumReducer</value>

</property>

<name>mapred.map.tasks</name>

</property>

</configuration>

</map-reduce>

</action>

<job-tracker>${jobTracker}</job-tracker>

<name-node>${nameNode}</name-node>

</prepare>

<name>mapred.job.queue.name</name>

<value>${queueName}</value>

</property>

</configuration>

<jdbc-url>${jdbcURL}</jdbc-url>

<param>INPUT=/user/${wf:user()}/${examplesRoot}/input-data/table</param>

<param>OUTPUT=/user/${wf:user()}/${examplesRoot}/output-data/hive2</param>

</hive2>

</action>

${wf:actionData('shell-node')['my_output'] eq 'Hello Oozie'}

</case>

</switch>

</decision>

<message>Shell action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>

</kill>

<message>Incorrect output, expected [Hello Oozie] but was [${wf:actionData('shell-node')['my_output']}]</message>

</kill>

</workflow-app>

开发我们的job.properties配置文件

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/sereval-actions

vim job.properties

nameNode=hdfs://node01:8020

jobTracker=node01:8032

queueName=default

examplesRoot=oozie_works

EXEC=hello.sh

outputDir=/oozie/output

inputdir=/oozie/input

jdbcURL=jdbc:hive2://node03:10000/default

oozie.use.system.libpath=true

# 配置我们文件上传到hdfs的保存路径实际上就是在hdfs 的/user/root/oozie_works/sereval-actions这个路径下

oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/sereval-actions/workflow.xml

第四步：上传我们的资源文件夹到hdfs对应路径

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/

hdfs dfs -put sereval-actions/ /user/root/oozie_works/

第五步：执行调度任务

cd /export/servers/oozie-4.1.0-cdh5.14.0/

bin/oozie job -oozie http://node03:11000/oozie -config oozie_works/serveral-actions/job.properties -run

3.3.7 oozie的任务调度,定时任务执行

在oozie当中，主要是通过Coordinator 来实现任务的定时调度，与我们的workflow类似的，Coordinator 这个模块也是主要通过xml来进行配置即可，接下来我们就来看看如何配置Coordinator 来实现任务的定时调度

Coordinator 的调度主要可以有两种实现方式

第一种：基于时间的定时任务调度，

oozie基于时间的调度主要需要指定三个参数，第一个起始时间，第二个结束时间，第三个调度频率

第二种：基于数据的任务调度，只有在有了数据才会去出发执行

这种是基于数据的调度，只要在有了数据才会触发调度任务

3.3.8 oozie当中定时任务的设置

第一步：拷贝定时任务的调度模板

cd /export/servers/oozie-4.1.0-cdh5.14.0

cp -r examples/apps/cron oozie_works/cron-job

第二步：拷贝我们的hello.sh脚本

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works

cp shell/hello.sh cron-job/

第三步：修改配置文件

修改job.properties

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/cron-job

vim job.properties

nameNode=hdfs://node01:8020

jobTracker=node01:8032

queueName=default

examplesRoot=oozie_works

oozie.coord.application.path=${nameNode}/user/${user.name}/${examplesRoot}/cron-job/coordinator.xml

start=2018-08-22T19:20+0800

end=2019-08-22T19:20+0800

EXEC=hello.sh

workflowAppUri=${nameNode}/user/${user.name}/${examplesRoot}/cron-job/workflow.xml

修改coordinator.xml

vim coordinator.xml

<!--

oozie的frequency 可以支持很多表达式，其中可以通过定时每分，或者每小时，或者每天，或者每月进行执行，也支持可以通过与linux的crontab表达式类似的写法来进行定时任务的执行

例如frequency 也可以写成以下方式

frequency="10 9 * * *" 每天上午的09:10:00开始执行任务

frequency="0 1 * * *" 每天凌晨的01:00开始执行任务

-->

<coordinator-app name="cron-job" frequency="${coord:minutes(1)}" start="${start}" end="${end}" timezone="GMT+0800"

xmlns="uri:oozie:coordinator:0.4">

<app-path>${workflowAppUri}</app-path>

<name>jobTracker</name>

<value>${jobTracker}</value>

</property>

<name>nameNode</name>

<value>${nameNode}</value>

</property>

<name>queueName</name>

<value>${queueName}</value>

</property>

</configuration>

</workflow>

</action>

</coordinator-app>

修改workflow.xml

vim workflow.xml

<workflow-app xmlns="uri:oozie:workflow:0.5" name="one-op-wf">

<job-tracker>${jobTracker}</job-tracker>

<name-node>${nameNode}</name-node>

<name>mapred.job.queue.name</name>

<value>${queueName}</value>

</property>

</configuration>

<file>/user/root/oozie_works/cron-job/${EXEC}#${EXEC}</file>

<capture-output/>

</shell>

</action>

</workflow-app>

第四步：上传到hdfs对应路径

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works

hdfs dfs -put cron-job/ /user/root/oozie_works/

第五步：运行定时任务

cd /export/servers/oozie-4.1.0-cdh5.14.0

bin/oozie job -oozie http://node03:11000/oozie -config oozie_works/cron-job/job.properties -run

3.3.9 oozie当中任务的查看以及杀死

查看所有普通任务

oozie jobs

查看定时任务

oozie jobs -jobtype coordinator

杀死某个任务

oozie可以通过jobid来杀死某个定时任务

oozie job -kill [id]

例如我们可以使用命令

oozie job -kill 0000085-180628150519513-oozie-root-C

来杀死我们定时任务

在hadoop2当中，jobTracker这种角色已经没有了，只有resourceManager，这里给定resourceManager的IP及端口即可

任务提交的队列名称，默认或者随便更改都可以

指定oozie的工作目录

保存执行任务的名称

转载于:https://www.cnblogs.com/tjp0210/p/11456406.html

didoushi0674

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
调度工具（ETL+任务流）

1.区别ETL作业调度工具和任务流调度工具kettle是一个ETL工具，ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程）。kettle中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。所以他的重心是用于数据oozie是一个工作流，Oozie工作流是放置在控制依赖DAG（有向无环图 ...
复制链接

扫一扫