大数据平台调度系统-EasyScheduler

最新推荐文章于 2024-05-15 15:32:12 发布

阿龙学堂

最新推荐文章于 2024-05-15 15:32:12 发布

阅读量5.8k

点赞数 1

分类专栏： hadoop

hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

大数据平台离不开调度系统。大数据平台工作流系统主要分为两类：

1.静态工作流执行列表

2.动态工作流执行列表

静态工作流根据作业计划提前生成并持久化任务执行列表，代表有：oozie , azkaban,airflow。

oozie , azkaban,airflow 这三个调度系统都是基于文件配置固化工作流形成DAG。oozie使用xml文件描述任务，支持hive，shell,java,hadoop,spark等调度。azkaban使用properties文件描述任务，使用shell命令，支持hive，shell,java,hadoop,spark等调度。airflow是python开发的基于python脚本定义任务。我比较熟悉的是oozie，基于hue上使用oozie非常简单拖拽控件配置就可完成，简单方便，oozie最大的优势是不需要服务器单独部署跟大数据服务部一起，oozie任务的启动都是通过一个map任务分发到集群节点启动，充分利用集群资源。

动态工作流不提前固化任务列表，根据触发条件动态生成，代表有：zeus，Chronos，xxx-job

最近易观数据平台开源了其研发的大数据分布式调度系统。主要解决数据处理中错综复杂的依赖关系，而不能直观监控任务健康状态等问题。EasyScheduler以DAG流式的方式将Task组装起来，可实时监控任务的运行状态，同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。看上去还不错，有空研究下。
github:https://github.com/analysys/EasyScheduler

转自：https://www.csdn.net/gather_25/MtTacgzsMDUwNi1ibG9n.html

后端部署文档

# 后端部署文档

后端有2种部署方式，分别为自动化部署和编译源码部署

## 1、准备工作

请下载最新版本的安装包，下载地址： [码云下载](https://gitee.com/easyscheduler/EasyScheduler/attach_files/) ，下载escheduler-backend-x.x.x.tar.gz(后端简称escheduler-backend),escheduler-ui-x.x.x.tar.gz(前端简称escheduler-ui)

#### 准备一: 基础软件安装(必装项请自行安装)

 * [Mysql](http://geek.analysys.cn/topic/124) (5.5+) :  必装
 * [JDK](https://www.oracle.com/technetwork/java/javase/downloads/index.html) (1.8+) :  必装
 * [ZooKeeper](https://www.jianshu.com/p/de90172ea680)(3.4.6+) ：必装 
 * [Hadoop](https://blog.csdn.net/Evankaka/article/details/51612437)(2.6+) ：选装， 如果需要使用到资源上传功能，MapReduce任务提交则需要配置Hadoop(上传的资源文件目前保存在Hdfs上)
 * [Hive](https://staroon.pro/2017/12/09/HiveInstall/)(1.2.1) :  选装，hive任务提交需要安装
 * Spark(1.x,2.x) : 选装，Spark任务提交需要安装
 * PostgreSQL(8.2.15+) : 选装，PostgreSQL PostgreSQL存储过程需要安装
 
```
 注意：EasyScheduler本身不依赖Hadoop、Hive、Spark、PostgreSQL,仅是会调用他们的Client，用于对应任务的运行。
```

#### 准备二: 创建部署用户

- 在所有需要部署调度的机器上创建部署用户，因为worker服务是以 sudo -u {linux-user} 方式来执行作业，所以部署用户需要有 sudo 权限，而且是免密的。

```部署账号
vi /etc/sudoers

# 例如部署用户是escheduler账号
escheduler  ALL=(ALL)       NOPASSWD: NOPASSWD: ALL

# 并且需要注释掉 Default requiretty 一行
#Default requiretty
```

#### 准备三: ssh免密配置
 在部署机器和其他安装机器上配置ssh免密登录，如果要在部署机上安装调度，需要配置本机免密登录自己
 
- [将 **主机器** 和各个其它机器SSH打通](http://geek.analysys.cn/topic/113)


#### 准备四：数据库初始化

* 创建database和账号

    通过以下mysql命令进入mysql命令行服务：

    > mysql -h {host} -u {user} -p{password} 

    然后执行以下命令创建database和账号
    
    ```sql 
    CREATE DATABASE escheduler DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
    GRANT ALL PRIVILEGES ON escheduler.* TO '{user}'@'%' IDENTIFIED BY '{password}';
    GRANT ALL PRIVILEGES ON escheduler.* TO '{user}'@'localhost' IDENTIFIED BY '{password}';
    flush privileges;
    ```

* 1.0.0和1.0.1版本创建表和导入基础数据
    说明：在escheduler-backend/sql/escheduler.sql和quartz.sql

    ```sql
    mysql -h {host} -u {user} -p{password} -D {db} < escheduler.sql
    
    mysql -h {host} -u {user} -p{password} -D {db} < quartz.sql
    ```

* 1.0.2版本创建表和导入基础数据
    修改conf/dao/data_source.properties中的下列属性

    ```
        spring.datasource.url
        spring.datasource.username
        spring.datasource.password
    ```
    执行创建表和导入基础数据脚本
    ```
    sh ./script/create_escheduler.sh
    ```

#### 准备五: 修改部署目录权限及运行参数

我们先来大体了解下解压后escheduler-backend目录下的文件(夹)的作用

```
bin : 基础服务启动脚本
conf : 项目配置文件
lib : 项目依赖jar包，包括各个模块jar和第三方jar
script : 集群启动、停止和服务监控启停脚本
sql : 项目依赖sql文件
install.sh : 一键部署脚本
```

- 修改权限(请将deployUser自行修改为对应部署用户)，使得部署用户对escheduler-backend目录有操作权限
    
    `sudo chown -R deployUser:deployUser escheduler-backend`

- 修改conf/env/目录下的 `.escheduler_env.sh` 环境变量

- 修改部署参数(根据自己服务器及业务情况):

 - 修改 **install.sh**中的各参数，替换成自身业务所需的值
   - monitorServerState 开关变量,在1.0.3版本中增加，控制是否启动自启动脚本(监控master,worker状态,如果掉线会自动启动)
   默认值为"false"表示不启动自启动脚本,如果需要启动改为"true"

   - hdfsStartupSate 开关变量，控制是否启动hdfs
      默认值为"false"表示不启动hdfs
      如果需要启动改为"true",启动hdfs需要自行创建hdfs根路径，也就是install.sh中的 hdfsPath

 - 如果使用hdfs相关功能，需要拷贝**hdfs-site.xml**和**core-site.xml**到conf目录下


## 2、部署
推荐自动化部署，有经验的小伙伴也可以使用源码部署

### 2.1 自动部署

- 安装zookeeper工具 

   `pip install kazoo`

- 切换到部署用户，一键部署

    `sh install.sh` 

- 使用jps命令查看服务是否启动(jps为java JDK自带)

```aidl
    MasterServer         ----- master服务
    WorkerServer         ----- worker服务
    LoggerServer         ----- logger服务
    ApiApplicationServer ----- api服务
    AlertServer          ----- alert服务
```
如果有以上5个服务，说明自动部署成功


部署成功后，可以进行日志查看，日志统一存放于指定文件夹内

```日志路径
 logs/
    ├── escheduler-alert-server.log
    ├── escheduler-master-server.log
    |—— escheduler-worker-server.log
    |—— escheduler-api-server.log
    |—— escheduler-logger-server.log
```

### 2.2 编译源码来部署

将源码包release版本下载后，解压进入根目录

* 执行编译命令：

```
 mvn -U clean package assembly:assembly -Dmaven.test.skip=true
```

* 查看目录

正常编译完后，会在当前目录生成 target/escheduler-{version}/ ， 然后参考



### 2.3 系统常用启停服务(服务用途请具体参见《系统架构设计》小节)

* 一键停止集群所有服务
   
   ` sh ./bin/stop_all.sh`
   
* 一键开启集群所有服务
   
   ` sh ./bin/start_all.sh`

* 启停Master

```启动master
sh ./bin/escheduler-daemon.sh start master-server
sh ./bin/escheduler-daemon.sh stop master-server
```

* 启停Worker

```
sh ./bin/escheduler-daemon.sh start worker-server
sh ./bin/escheduler-daemon.sh stop worker-server
```

* 启停Api

```
sh ./bin/escheduler-daemon.sh start api-server
sh ./bin/escheduler-daemon.sh stop api-server
```
* 启停Logger

```
sh ./bin/escheduler-daemon.sh start logger-server
sh ./bin/escheduler-daemon.sh stop logger-server
```
* 启停Alert

```
sh ./bin/escheduler-daemon.sh start alert-server
sh ./bin/escheduler-daemon.sh stop alert-server
```

## 3、数据库升级
数据库升级是在1.0.2版本增加的功能,执行以下命令即可自动升级数据库
```
sh ./script/upgrade_escheduler.sh
```

# 前端部署文档

前端有3种部署方式，分别为自动化部署，手动部署和编译源码部署

## 1、准备工作
#### 下载安装包

请下载最新版本的安装包，下载地址： [码云下载](https://gitee.com/easyscheduler/EasyScheduler/attach_files/)

下载 escheduler-ui-x.x.x.tar.gz 后，解压`tar -zxvf escheduler-ui-x.x.x.tar.gz ./`后，进入`escheduler-ui`目录
 



## 2、部署
以下两种方式任选其一部署即可，推荐自动化部署
### 2.1 自动化部署

在`escheduler-ui`目录下编辑安装文件`vi install-escheduler-ui.sh`

更改前端访问端口和后端代理接口地址

```
# 配置前端访问端口
esc_proxy="8888"

# 配置代理后端接口
esc_proxy_port="http://192.168.xx.xx:12345"
```

>前端自动部署基于linux系统`yum`操作，部署之前请先安装更新`yum`

在该目录下执行`./install-escheduler-ui.sh`


### 2.2 手动部署

安装epel源 `yum install epel-release -y`

安装Nginx `yum install nginx -y`


> ####  nginx配置文件地址
```
/etc/nginx/conf.d/default.conf
```
> ####  配置信息(自行修改)
```
server {
    listen       8888;# 访问端口
    server_name  localhost;
    #charset koi8-r;
    #access_log  /var/log/nginx/host.access.log  main;
    location / {
        root   /xx/dist; # 上面前端解压的dist目录地址(自行修改)
        index  index.html index.html;
    }
    location /escheduler {
        proxy_pass http://192.168.xx.xx:12345; # 接口地址(自行修改)
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header x_real_ipP $remote_addr;
        proxy_set_header remote_addr $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_http_version 1.1;
        proxy_connect_timeout 4s;
        proxy_read_timeout 30s;
        proxy_send_timeout 12s;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";
    }
    #error_page  404              /404.html;
    # redirect server error pages to the static page /50x.html
    #
    error_page   500 502 503 504  /50x.html;
    location = /50x.html {
        root   /usr/share/nginx/html;
    }
}
```
> ####  重启Nginx服务
```
systemctl restart nginx
```

#### nginx命令

- 启用 `systemctl enable nginx`

- 重启 `systemctl restart nginx`

- 状态 `systemctl status nginx`


## 前端常见问题
####  1. 上传文件大小限制
编辑配置文件 `vi /etc/nginx/nginx.conf`
```
# 更改上传大小
client_max_body_size 1024m
```

阿龙学堂

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
大数据平台调度系统-EasyScheduler

大数据平台离不开调度系统。大数据平台工作流系统主要分为两类： 1.静态工作流执行列表 2.动态工作流执行列表静态工作流根据作业计划提前生成并持久化任务执行列表，代表有：oozie , azkaban,airflow。 oozie , azkaban,airflow 这三个调度系统都是基于文件配置固化工作流形成DAG。oozie使用xml文件描述任务，支...
复制链接

扫一扫