简介
分布式易扩展的可视化工作流任务调度平台
安装
前提条件
这里选择 dolphinscheduler-2.0.5-bin. 也可以自行选择 官网最新的 3.0 版本。
sudo yum install -y psmisc
开始安装
安装包下载
链接:https://pan.baidu.com/s/16xYYsBxDwDGwT1N9RtWckA
提取码:yyds
–来自百度网盘超级会员V4的分享
解压
tar -zxvf apache-dolphinscheduler-2.0.5-bin.tar.gz
集群规划
主节点 | 从节点 |
---|---|
node1 | master |
node1 | work |
node2 | work |
创建元数据库
-- mysql 创建元数据 管理库。
CREATE DATABASE dolphinscheduler DEFAULT CHARACTER SET utf8
DEFAULT COLLATE utf8_general_ci;
CREATE USER 'dolphinscheduler'@'%' IDENTIFIED BY '123';
GRANT ALL PRIVILEGES ON dolphinscheduler.* TO 'dolphinscheduler'@'%' IDENTIFIED BY '123';
GRANT ALL PRIVILEGES ON dolphinscheduler.* TO 'dolphinscheduler' @'%';
flush privileges;
配置一键部署脚本
vi /home/bigdata/newsoft/apache-dolphinscheduler-2.0.5-bin/conf/config/install_config.conf
# 要修改的配置
# 将要部署任一 DolphinScheduler 服务的服务器主机名或 ip 列表,就要那些机器分发这些安装包
ips="Node1,Node2,Node3"
# master 所在主机名列表,必须是 ips 的子集
masters=Node1"
# worker 主机名及队列,此处的 ip 必须在 ips 列表中,default是worker的不同分组
workers="Node1:default,Node2:default,Node3:default"
# 告警服务所在服务器主机名
alertServer="Node1"
# api 服务所在服务器主机名
apiServers="Node1"
# 不需要的配置项,可以保留默认值,也可以用 # 注释,可以用python代码操作工作流
# pythonGatewayServers="ds1"
# DS 安装路径,如果不存在会创建
installPath="/opt/module/dolphinscheduler_data"
# 部署用户,任务执行服务是以 sudo -u {linux-user} 切换不同 Linux 用户的方式来实现多租户运行作业,因此该用户必须有免密的 sudo 权限。
deployUser="root"
# JAVA_HOME 路径
javaHome="/opt/jdk1.8"
# 数据库类型
DATABASE_TYPE="mysql"
# 数据库 URL
SPRING_DATASOURCE_URL="jdbc:mysql://Node1:3306/dolphinscheduler?useUnicode=true&characterEncoding=UTF-8&serverTimezone=CST&useSSL=false"
# 数据库用户名
SPRING_DATASOURCE_USERNAME="dolphinscheduler"
# 数据库密码
SPRING_DATASOURCE_PASSWORD="123"
# 注册中心插件名称,DS 通过注册中心来确保集群配置的一致性
registryPluginName="zookeeper"
# 注册中心地址,即 Zookeeper 集群的地址
registryServers="Node1:2181,Node2:2181,Node3:2181"
# DS 在 Zookeeper 的结点名称
registryNamespace="dolphinscheduler"
# resourceStorageType="HDFS"
# 资源存储类型,根据自己的需求配置
resourceStorageType="NONE"
# 资源上传路径
resourceUploadPath="/dolphinscheduler"
# 默认文件系统
defaultFS="hdfs://mycluster:8020"
# yarn RM http 访问端口
resourceManagerHttpAddressPort="8088"
# Yarn RM 高可用 ip,若未启用 RM 高可用,则将该值置空
yarnHaIps=
# Yarn RM 主机名,若启用了 HA 或未启用 RM,保留默认值
singleYarnIp="yarnIp1"
# 拥有 HDFS 根目录操作权限的用户
hdfsRootUser="hdfs"
拷贝mysql驱动到lib目录下面
cp mysql-connector-java-8.0.16.jar /opt/module/dolphinscheduler-2.0.5/lib
修改配置文件: conf/env/dolphinscheduler_env.sh
export HADOOP_HOME=/opt/sxt/Hadoop-2.6.5
export HADOOP_CONF_DIR=/opt/sxt/Hadoop-2.6.5/etc/hadoop/
export SPARK_HOME=/opt/spark-2.3.1
#export PYTHON_HOME=
export JAVA_HOME=/opt/jdk1.8
export HIVE_HOME=/opt/hive-2.3.3
export FLINK_HOME=/opt/flink-1.13.6
#export DATAX_HOME=/opt/soft/datax
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$JAVA_HOME/bin:$HIVE_HOME/bin:$FLINK_HOME/bin:$PATH
启动初始化脚本
./create-dolphinscheduler.sh
# 自动在 mysql下创建表格, 确认有很多表自动生成继续下一步;
# 启动zookeeper,
[root@Node1 dolphinscheduler-2.0.5]# ./install.sh
# 自动分发给 从节点数据 并启动,
查看网址: http://node1:12345/dolphinscheduler
初始用户的用户名为: admin ,密码为 dolphinscheduler123
参考博客:https://blog.csdn.net/S1124654/article/details/126913801