大数据平台调度系统-EasyScheduler

大数据平台离不开调度系统。大数据平台工作流系统主要分为两类:

   1.静态工作流执行列表

    2.动态工作流执行列表

 

    静态工作流根据作业计划提前生成并持久化任务执行列表,代表有:oozie , azkaban,airflow。

    oozie , azkaban,airflow 这三个调度系统都是基于文件配置固化工作流形成DAG。oozie使用xml文件描述任务,支持hive,shell,java,hadoop,spark等调度。azkaban使用properties文件描述任务,使用shell命令,支持hive,shell,java,hadoop,spark等调度。airflow是python开发的基于python脚本定义任务。我比较熟悉的是oozie,基于hue上使用oozie非常简单拖拽控件配置就可完成,简单方便,oozie最大的优势是不需要服务器单独部署跟大数据服务部一起,oozie任务的启动都是通过一个map任务分发到集群节点启动,充分利用集群资源。

    动态工作流不提前固化任务列表,根据触发条件动态生成,代表有:zeus,Chronos,xxx-job

  最近易观数据平台开源了其研发的大数据分布式调度系统。主要解决数据处理中错综复杂的依赖关系,而不能直观监控任务健康状态等问题。EasyScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。看上去还不错,有空研究下。
github:https://github.com/analysys/EasyScheduler

 

转自:https://www.csdn.net/gather_25/MtTacgzsMDUwNi1ibG9n.html

 

后端部署文档
# 后端部署文档

后端有2种部署方式,分别为自动化部署和编译源码部署

## 1、准备工作

请下载最新版本的安装包,下载地址: [码云下载](https://gitee.com/easyscheduler/EasyScheduler/attach_files/) ,下载escheduler-backend-x.x.x.tar.gz(后端简称escheduler-backend),escheduler-ui-x.x.x.tar.gz(前端简称escheduler-ui)

#### 准备一: 基础软件安装(必装项请自行安装)

 * [Mysql](http://geek.analysys.cn/topic/124) (5.5+) :  必装
 * [JDK](https://www.oracle.com/technetwork/java/javase/downloads/index.html) (1.8+) :  必装
 * [ZooKeeper](https://www.jianshu.com/p/de90172ea680)(3.4.6+) :必装 
 * [Hadoop](https://blog.csdn.net/Evankaka/article/details/51612437)(2.6+) :选装, 如果需要使用到资源上传功能,MapReduce任务提交则需要配置Hadoop(上传的资源文件目前保存在Hdfs上)
 * [Hive](https://staroon.pro/2017/12/09/HiveInstall/)(1.2.1) :  选装,hive任务提交需要安装
 * Spark(1.x,2.x) : 选装,Spark任务提交需要安装
 * PostgreSQL(8.2.15+) : 选装,PostgreSQL PostgreSQL存储过程需要安装
 
```
 注意:EasyScheduler本身不依赖Hadoop、Hive、Spark、PostgreSQL,仅是会调用他们的Client,用于对应任务的运行。
```

#### 准备二: 创建部署用户

- 在所有需要部署调度的机器上创建部署用户,因为worker服务是以 sudo -u {linux-user} 方式来执行作业,所以部署用户需要有 sudo 权限,而且是免密的。

```部署账号
vi /etc/sudoers

# 例如部署用户是escheduler账号
escheduler  ALL=(ALL)       NOPASSWD: NOPASSWD: ALL

# 并且需要注释掉 Default requiretty 一行
#Default requiretty
```

#### 准备三: ssh免密配置
 在部署机器和其他安装机器上配置ssh免密登录,如果要在部署机上安装调度,需要配置本机免密登录自己
 
- [将 **主机器** 和各个其它机器SSH打通](http://geek.analysys.cn/topic/113)


#### 准备四:数据库初始化

* 创建database和账号

    通过以下mysql命令进入mysql命令行服务:

    > mysql -h {host} -u {user} -p{password} 

    然后执行以下命令创建database和账号
    
    ```sql 
    CREATE DATABASE escheduler DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
    GRANT ALL PRIVILEGES ON escheduler.* TO '{user}'@'%' IDENTIFIED BY '{password}';
    GRANT ALL PRIVILEGES ON escheduler.* TO '{user}'@'localhost' IDENTIFIED BY '{password}';
    flush privileges;
    ```

* 1.0.0和1.0.1版本创建表和导入基础数据
    说明:在escheduler-backend/sql/escheduler.sql和quartz.sql

    ```sql
    mysql -h {host} -u {user} -p{password} -D {db} < escheduler.sql
    
    mysql -h {host} -u {user} -p{password} -D {db} < quartz.sql
    ```

* 1.0.2版本创建表和导入基础数据
    修改conf/dao/data_source.properties中的下列属性

    ```
        spring.datasource.url
        spring.datasource.username
        spring.datasource.password
    ```
    执行创建表和导入基础数据脚本
    ```
    sh ./script/create_escheduler.sh
    ```

#### 准备五: 修改部署目录权限及运行参数

我们先来大体了解下解压后escheduler-backend目录下的文件(夹)的作用

```
bin : 基础服务启动脚本
conf : 项目配置文件
lib : 项目依赖jar包,包括各个模块jar和第三方jar
script : 集群启动、停止和服务监控启停脚本
sql : 项目依赖sql文件
install.sh : 一键部署脚本
```

- 修改权限(请将deployUser自行修改为对应部署用户),使得部署用户对escheduler-backend目录有操作权限
    
    `sudo chown -R deployUser:deployUser escheduler-backend`

- 修改conf/env/目录下的 `.escheduler_env.sh` 环境变量

- 修改部署参数(根据自己服务器及业务情况):

 - 修改 **install.sh**中的各参数,替换成自身业务所需的值
   - monitorServerState 开关变量,在1.0.3版本中增加,控制是否启动自启动脚本(监控master,worker状态,如果掉线会自动启动)
   默认值为"false"表示不启动自启动脚本,如果需要启动改为"true"

   - hdfsStartupSate 开关变量,控制是否启动hdfs
      默认值为"false"表示不启动hdfs
      如果需要启动改为"true",启动hdfs需要自行创建hdfs根路径,也就是install.sh中的 hdfsPath

 - 如果使用hdfs相关功能,需要拷贝**hdfs-site.xml**和**core-site.xml**到conf目录下


## 2、部署
推荐自动化部署,有经验的小伙伴也可以使用源码部署

### 2.1 自动部署

- 安装zookeeper工具 

   `pip install kazoo`

- 切换到部署用户,一键部署

    `sh install.sh` 

- 使用jps命令查看服务是否启动(jps为java JDK自带)

```aidl
    MasterServer         ----- master服务
    WorkerServer         ----- worker服务
    LoggerServer         ----- logger服务
    ApiApplicationServer ----- api服务
    AlertServer          ----- alert服务
```
如果有以上5个服务,说明自动部署成功


部署成功后,可以进行日志查看,日志统一存放于指定文件夹内

```日志路径
 logs/
    ├── escheduler-alert-server.log
    ├── escheduler-master-server.log
    |—— escheduler-worker-server.log
    |—— escheduler-api-server.log
    |—— escheduler-logger-server.log
```

### 2.2 编译源码来部署

将源码包release版本下载后,解压进入根目录

* 执行编译命令:

```
 mvn -U clean package assembly:assembly -Dmaven.test.skip=true
```

* 查看目录

正常编译完后,会在当前目录生成 target/escheduler-{version}/ , 然后参考



### 2.3 系统常用启停服务(服务用途请具体参见《系统架构设计》小节)

* 一键停止集群所有服务
   
   ` sh ./bin/stop_all.sh`
   
* 一键开启集群所有服务
   
   ` sh ./bin/start_all.sh`

* 启停Master

```启动master
sh ./bin/escheduler-daemon.sh start master-server
sh ./bin/escheduler-daemon.sh stop master-server
```

* 启停Worker

```
sh ./bin/escheduler-daemon.sh start worker-server
sh ./bin/escheduler-daemon.sh stop worker-server
```

* 启停Api

```
sh ./bin/escheduler-daemon.sh start api-server
sh ./bin/escheduler-daemon.sh stop api-server
```
* 启停Logger

```
sh ./bin/escheduler-daemon.sh start logger-server
sh ./bin/escheduler-daemon.sh stop logger-server
```
* 启停Alert

```
sh ./bin/escheduler-daemon.sh start alert-server
sh ./bin/escheduler-daemon.sh stop alert-server
```

## 3、数据库升级
数据库升级是在1.0.2版本增加的功能,执行以下命令即可自动升级数据库
```
sh ./script/upgrade_escheduler.sh
```
# 前端部署文档

前端有3种部署方式,分别为自动化部署,手动部署和编译源码部署

## 1、准备工作
#### 下载安装包

请下载最新版本的安装包,下载地址: [码云下载](https://gitee.com/easyscheduler/EasyScheduler/attach_files/)

下载 escheduler-ui-x.x.x.tar.gz 后,解压`tar -zxvf escheduler-ui-x.x.x.tar.gz ./`后,进入`escheduler-ui`目录
 



## 2、部署
以下两种方式任选其一部署即可,推荐自动化部署
### 2.1 自动化部署

在`escheduler-ui`目录下编辑安装文件`vi install-escheduler-ui.sh`

更改前端访问端口和后端代理接口地址

```
# 配置前端访问端口
esc_proxy="8888"

# 配置代理后端接口
esc_proxy_port="http://192.168.xx.xx:12345"
```

>前端自动部署基于linux系统`yum`操作,部署之前请先安装更新`yum`

在该目录下执行`./install-escheduler-ui.sh`


### 2.2 手动部署

安装epel源 `yum install epel-release -y`

安装Nginx `yum install nginx -y`


> ####  nginx配置文件地址
```
/etc/nginx/conf.d/default.conf
```
> ####  配置信息(自行修改)
```
server {
    listen       8888;# 访问端口
    server_name  localhost;
    #charset koi8-r;
    #access_log  /var/log/nginx/host.access.log  main;
    location / {
        root   /xx/dist; # 上面前端解压的dist目录地址(自行修改)
        index  index.html index.html;
    }
    location /escheduler {
        proxy_pass http://192.168.xx.xx:12345; # 接口地址(自行修改)
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header x_real_ipP $remote_addr;
        proxy_set_header remote_addr $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_http_version 1.1;
        proxy_connect_timeout 4s;
        proxy_read_timeout 30s;
        proxy_send_timeout 12s;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";
    }
    #error_page  404              /404.html;
    # redirect server error pages to the static page /50x.html
    #
    error_page   500 502 503 504  /50x.html;
    location = /50x.html {
        root   /usr/share/nginx/html;
    }
}
```
> ####  重启Nginx服务
```
systemctl restart nginx
```

#### nginx命令

- 启用 `systemctl enable nginx`

- 重启 `systemctl restart nginx`

- 状态 `systemctl status nginx`


## 前端常见问题
####  1. 上传文件大小限制
编辑配置文件 `vi /etc/nginx/nginx.conf`
```
# 更改上传大小
client_max_body_size 1024m
```
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Apache DolphinScheduler是一个新一代分布式大数据工作流任务调度系统,致力于“解决大数据任务之间错综复杂的依赖关系,整个数据处理开箱即用”。它以 DAG(有向无环图) 的方式将任务连接起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及 Kill任务等操作。目前已经有像IBM、腾讯、美团、360等400多家公司生产上使用。 调度系统现在市面上的调度系统那么多,比如老牌的Airflow, Oozie,Kettle,xxl-job ,Spring Batch等等, 为什么要选DolphinScheduler ? DolphinScheduler 的定位是大数据工作流调度。通过把大数据和工作流做了重点标注. 从而可以知道DolphinScheduler的定位是针对于大数据体系。 DolphinScheduler是非常强大的大数据调度工具,有以下一些特点:1、通过拖拽以DAG 图的方式将 Task 按照任务的依赖关系关联起来,可实时可视化监控任务的运行状态;2、支持丰富的任务类型;3、支持工作流定时调度、依赖调度、手动调度、手动暂停/停止/恢复,同时支持失败重试/告警、从指定节点恢复失败、Kill 任务等操作;4、支持工作流全局参数及节点自定义参数设置;5、支持集群HA,通过 Zookeeper实现 Master 集群和 Worker 集群去中心化;6、支持工作流运行历史树形/甘特图展示、支持任务状态统计、流程状态统计;7、支持补数,并行或串行回填数据。课程会带大家构建DolphinScheduler大数据调度平台,实战讲解多种任务调度配置,会基于案例讲解DolphinScheduler使用,让大家在实战中掌握DolphinScheduler。 DolphinScheduler 发展很快 很多公司调度都切换到了DolphinScheduler,掌握DolphinScheduler调度使用势在必行,抓住新技术机遇,为跳巢涨薪做好准备。
DolphinScheduler是一款基于大数据生态系统的开源任务调度平台,旨在提供统一的、灵活的任务调度、依赖调度和数据处理功能。 首先,基于DolphinScheduler可以构建大数据调度平台,可以对大数据生态系统中的各类任务进行调度和管理,如数据采集、数据清洗、数据加工、数据计算、数据分析等各种任务。平台支持多种类型的任务调度,包括周期性任务、依赖任务和定时任务等,能够满足不同任务的调度需求。 其次,DolphinScheduler具有良好的可扩展性和灵活性。该平台采用分布式架构设计,可以支持大规模任务调度和并行处理,能够满足高并发场景下的任务调度需求。同时,平台支持任务流的编排和调度,能够根据任务的依赖关系和执行顺序进行自动调度,提高任务的执行效率和稳定性。 此外,DolphinScheduler还提供了丰富的监控和告警功能,能够实时监控任务的运行状态和执行结果,及时发现和处理任务执行异常情况。同时,平台还支持任务的重试和失败重跑机制,能够在任务执行失败时自动进行重试或重跑,确保任务的准确性和完整性。 最后,DolphinScheduler是一个开源项目,具有活跃的社区和强大的生态系统支持。用户可以根据自己的需求和场景进行二次开发和定制化,实现更加个性化的功能和需求。同时,社区提供了丰富的文档和学习资源,方便用户学习和使用该平台。 总的来说,基于DolphinScheduler构建大数据调度平台可以提供强大的任务调度和管理功能,能够满足各类大数据任务的调度需求,并且具有良好的可扩展性和灵活性,是构建大数据调度平台的理想选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值