Azkaban
用户操作手册
目录
-
环境搭建 2
1.1 安装准备 2
1.1.1 环境准备 2
1.1.2下载镜像 2
1.1.3 编译tar包 3
1.1.4 拷贝压缩包到/opt目录上 3
1.1.5 解压缩 3
1.1.6 数据库安装 3
1.1.7 数据库配置(mysql) 3
1.2 solo模式搭建 4
1.2.1 修改配置参数 4
1.2.2 solo模式启动 4
1.3 集群模式(web,exec) 5
1.3.1 web-server节点配置 5
1.3.2 配置keystore 6
1.3.3 executor节点配置 7
1.3.4 集群模式启动 7
2 流程图 7
3 创建任务 9
3.1 Flow 2.0基础知识 9
3.2 任务依赖 9
3.3 任务配置 10
3.4 任务流配置 10
3.5 嵌套流 11
4 脚本示例 11
4.1 Sqoop任务 11
4.1.1 Sqoop to hive 11
4.1.2 Sqoop to hbase 12
4.2 Logstash任务 13
4.2.1 Logstash to es 13
4.3 Python任务 15
4.4 Java任务 16
4.5 Linux sh任务 17
4.6 spark任务 18
5 使用 20
5.1 创建项目 20
5.2 上传项目 21
5.3 流视图 22
5.4 项目权限 23
5.5 执行项目 24
5.5.1 执行流视图 24
5.5.2 通知选项 24
5.5.3 失败选项 25
5.5.4 并发选项 25
5.5.5 流作业参数 26
5.6 执行 26
5.6.1 流执行页面 26
5.6.2 执行页面 27
5.6.3 历史页面 28
5.7 计划调度 28
5.7.1 SLA 30
5.8 Job页面 30
5.8.1 Job编辑 31
5.8.2 Job历史 31
5.9 Job细节 32
5.9.1 Job日志 33
5.9.2 Job摘要 33 -
环境搭建
1.1 安装准备
1.1.1 环境准备
系统: centos7
数据库: mariadb或mysql
azkaban源码包: azkaban_install-master.zip
1.1.2下载镜像
命令行:git clone https://github.com/hqh546020152/azkaban_install.git
或者直接去github下载,此时文件格式是zip,在linux上面用unzip命令解压:
unzip azkaban_install-master.zip -C azkaban
1.1.3 编译tar包
cd azkaban
./gradlew distTar
1.1.4 拷贝压缩包到/opt目录上
cp /opt/azkaban/azkaban-/build/distributions/.tar.gz /opt
1.1.5 解压缩
cd /opt
tar zxvf azkaban-exec-server-3.44.0-2-ga7b0fa4.tar.gz -C /opt/ azkaban-exec
tar zxvf azkaban-web-server-3.44.0-2-ga7b0fa4.tar.gz -C /opt/azkaban-web
tar zxvf azkaban-db-3.44.0-2-ga7b0fa4.tar.gz -C /opt/azkaban-db
tar zxvf azkaban-solo-server-3.44.0-2-ga7b0fa4.tar.gz -C /opt/ azkaban-solo
1.1.6 数据库安装
数据库可选mariadb或mysql,这里使用mysql,可参见mysql安装文档
1.1.7 数据库配置(mysql)
mysql> CREATE DATABASE azkaban;
mysql> CREATE USER ‘azkaban’@’%’ IDENTIFIED BY ‘azkaban’;
授权远程连接账号密码分别是root和azkaban
mysql> grant all privileges on . to ‘root’@’%’ identified by ‘azkaban’;
mysql> flush privileges;
mysql > use azkaban; 切换到azkaban数据库
mysql > source /usr/local/src/azkaban-db-0.1.0-SNAPSHOT/create-all-sql-0.1.0-SNAPSHOT.sql
这里需要在executors表里面注册executor,如
mysql >insert into executors (host,port,active) values (“master”,12321,1);
1.2 solo模式搭建
1.2.1 修改配置参数
vim azkaban-solo/conf/azkaban.properties,
修改参数如下:
default.timezone.id=Asia/Shanghai
#注释内置数据库h2的配置,改为mysql
#database.type=h2
#h2.path=./h2
#h2.create.tables=true
database.type=mysql
mysql.port=3306
mysql.host=zoe-001
mysql.database=azkaban
mysql.user=azkaban
mysql.password=azkaban
mysql.numconnections=100
azkaban.webserver.url=http://zoe-001:8081
vim azkaban-solo/plugins/jobtypes/commonprivate.properties
#添加改配置可以关闭内存检查
memCheck.enabled=false
1.2.2 solo模式启动
启动脚本:
cd /opt/azkaban-solo
./bin/start-solo.sh
启动后可通过jps命令查看服务是否启动成功(bin/shutdown-solo.sh语句停服务)
通过浏览器登陆localhost:8081页面,用户名密码记录在/optl/azkaban-solo/conf目录下的azkaban-users.xml中
1.3 集群模式(web,exec)
集群模式主要分为两个角色webserver和executor,一个是管理者(webserver),一个是执行者(executor),执行者可以部署在任意节点,可以有多个,管理者只有一个
例如:
master webserver
slave1 executor
slave2 executor
1.3.1 web-server节点配置
- 修改azkaban.properties
Azkaban Personalization Settings
azkaban.name=Test
azkaban.label=My Local Azkaban
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
web.resource.dir=web/
default.timezone.id=Asia/Shanghai
Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
user.manager.xml.file=conf/azkaban-users.xml