dolphinscheduler3.0生产环境搭建+hadoop+kerberos

按照官网的流程先把大致的东西搭建出来  ,这里就不赘述了

具体使用中需要和hdfs结合的话需要配置更多参数

如果你的大数据平台也是cdh 那可以直接复用我的命令了

注意最下面的SPARK1那里我删掉1,改成SPARK了  最下面的输出也要跟着改下 

export HADOOP_HOME=${HADOOP_HOME:-/opt/cloudera/parcels/CDH/lib/hadoop}
export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-/etc/hadoop/conf}
#export SPARK_HOME1=${SPARK_HOME1:-/opt/soft/spark1}
export SPARK_HOME=${SPARK_HOME:-/opt/cloudera/parcels/CDH/lib/spark}
export PYTHON_HOME=${PYTHON_HOME:-/usr/local/python3.6.11}
export HIVE_HOME=${HIVE_HOME:-/opt/cloudera/parcels/CDH/lib/hive}
export FLINK_HOME=${FLINK_HOME:-/data/flink-1.13.6}
export DATAX_HOME=${DATAX_HOME:-/data/datax}

注意ds3必须要用flink1.13以上的版本 

搭完之后应该是访问不了的 ,因为部署脚本有bug ,没有分发mysql包到api-server上

我的ds部署位置是/data/dolphinscheduler3 下面都按此举例

cp /data/apache-dolphinscheduler3/tools/libs/mysql-connector-java-8.0.16.jar  /data/dolphinscheduler3/api-server/mysql-connector-java-8.0.16.jar 

记得把包分发到所有节点的所有服务 , alert-server  api-server master-server  worker-server  tools 命令只是换换位置,不再赘述。

部署脚本的权限也有问题,手动设置一下 

chown -R dolphinscheduler:dolphinscheduler  /data/dolphinscheduler3/

把权限处理一下  这会再stop-all start-all 应该可以访问了 

搭建完成之后的配置存放在 conf下的 common.properties 中 初步搭建完成之后可以修改这里的配置来进行调整

随便找个服务修改conf下的common.properties文件

需要修改的部分如下
hadoop.security.authentication.startup.state=true
data.basedir.path=/data/dsdata   ds文件的存储位置  记得自己手动创建
resource.storage.type=HDFS 
java.security.krb5.conf.path=/etc/krb5.conf 指定krb5文件的位置
login.user.keytab.username=hdfs/supergroup@CDP.PROD 指定kerberos用户名
这个用户需要拥有对hdfs的操作权限 可以自己先kinit完了测试一下
login.user.keytab.path=/var/lib/keytab/hdfs.keytab 指定keytab文件位置
hdfs.root.user=hdfs 指定hdfs的root用户
fs.defaultFS=hdfs://nameservice1  ha的hdfs需要填写ha路径
yarn.resourcemanager.ha.rm.ids=master1.cdp.prod:8032 yarn的路径
yarn.application.status.address  这个不用修改 
yarn.job.history.status.address=http://master2.cdp.prod:19888/ws/v1/history/mapreduce/jobs/%s   yarn 的jobhistory路径

然后分发到 alert-server  api-server master-server  worker-server 的conf下  直接覆盖原来的就好了  ,这些配置文件都是一样的

然后把hadoop的配置文件软链接过来

ln -s /etc/hadoop/conf/hdfs-site.xml /data/dolphinscheduler3/api-server/conf/hdfs-site.xml
ln -s /etc/hadoop/conf/hdfs-site.xml /data/dolphinscheduler3/worker-server/conf/hdfs-site.xml
ln -s /etc/hadoop/conf/hdfs-site.xml /data/dolphinscheduler3/master-server/conf/hdfs-site.xml
ln -s /etc/hadoop/conf/hdfs-site.xml /data/dolphinscheduler3/alert-server/conf/hdfs-site.xml



ln -s /etc/hadoop/conf/core-site.xml /data/dolphinscheduler3/api-server/conf/core-site.xml
ln -s /etc/hadoop/conf/core-site.xml /data/dolphinscheduler3/worker-server/conf/core-site.xml
ln -s /etc/hadoop/conf/core-site.xml /data/dolphinscheduler3/master-server/conf/core-site.xml
ln -s /etc/hadoop/conf/core-site.xml /data/dolphinscheduler3/alert-server/conf/core-site.xml

然后创建之前配置的本地文件位置 

mkdir /data/dsdata
chown -R dolphinscheduler:dolphinscheduler  /data/dsdata

 如果你是cdh环境 需要替换一下ds自带的hive包 

替换这些 

mv hive-common-2.1.0.jar hive-jdbc-2.1.0.jar hive-metastore-2.1.0.jar  hive-orc-2.1.0.jar  hive-serde-2.1.0.jar  hive-service-2.1.0.jar  hive-service-rpc-2.1.0.jar hive-storage-api-2.1.0.jar  /mnt

cp /opt/cloudera/parcels/CDH/lib/hive/lib/hive-common-2.1.1-cdh6.3.2.jar  /data/dolphinscheduler3/alert-server/libs/
cp /opt/cloudera/parcels/CDH/lib/hive/lib/hive-exec-2.1.1-cdh6.3.2.jar  /data/dolphinscheduler3/alert-server/libs/
cp /opt/cloudera/parcels/CDH/lib/hive/lib/hive-jdbc-2.1.1-cdh6.3.2.jar  /data/dolphinscheduler3/alert-server/libs/
cp /opt/cloudera/parcels/CDH/lib/hive/lib/hive-metastore-2.1.1-cdh6.3.2.jar /data/dolphinscheduler3/alert-server/libs/
cp /opt/cloudera/parcels/CDH/lib/hive/lib/hive-orc-2.1.1-cdh6.3.2.jar  /data/dolphinscheduler3/alert-server/libs/
cp /opt/cloudera/parcels/CDH/lib/hive/lib/hive-serde-2.1.1-cdh6.3.2.jar /data/dolphinscheduler3/alert-server/libs/
cp /opt/cloudera/parcels/CDH/lib/hive/lib/hive-service-2.1.1-cdh6.3.2.jar  /data/dolphinscheduler3/alert-server/libs/
cp /opt/cloudera/parcels/CDH/lib/hive/lib/hive-service-rpc-2.1.1-cdh6.3.2.jar /data/dolphinscheduler3/alert-server/libs/
cp /opt/cloudera/parcels/CDH/lib/hive/lib/hive-storage-api-2.1.1-cdh6.3.2.jar   /data/dolphinscheduler3/alert-server/libs/

刚开始可以直接替换所有的依赖 ,这个jar包中的依赖guava和ds的有冲突,导致先加载这个jar包,sparing就起不来
hive-exec-2.1.1-cdh6.3.2-core.jar
如果可以正常启动就算了 ,无法正常启动就用原来的 。不知道为什么有时候可以有时候不行

4个服务加一个tools  都有lib文件夹 

记得在所有节点上执行 

同datax一起使用的话记得做一个python2.7的软连接到你的python3下 

不然会报错

/data/dsdata/exec/process/6775268362528/6796595627808_19/7/20/7_20_node.sh: line 1: /usr/local/python3.6.11/bin/python2.7: No such file or directory

完了就可以  stop-all start-all

然后去ds上测试一下

首先创建一个租户  比如test 

然后去资源中心再创建几个test文件夹

然后再去项目管理里创建几个test项目 

都可以创建的话就是部署成功了 ,有错误需要去apiserver的日志里查看 。按流程来基本应该没有问题

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
Apache DolphinScheduler是一个新一代分布式大数据工作流任务调度系统,致力于“解决大数据任务之间错综复杂的依赖关系,整个数据处理开箱即用”。它以 DAG(有向无环图) 的方式将任务连接起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及 Kill任务等操作。目前已经有像IBM、腾讯、美团、360等400多家公司生产上使用。 调度系统现在市面上的调度系统那么多,比如老牌的Airflow, Oozie,Kettle,xxl-job ,Spring Batch等等, 为什么要选DolphinSchedulerDolphinScheduler 的定位是大数据工作流调度。通过把大数据和工作流做了重点标注. 从而可以知道DolphinScheduler的定位是针对于大数据体系。 DolphinScheduler是非常强大的大数据调度工具,有以下一些特点:1、通过拖拽以DAG 图的方式将 Task 按照任务的依赖关系关联起来,可实时可视化监控任务的运行状态;2、支持丰富的任务类型;3、支持工作流定时调度、依赖调度、手动调度、手动暂停/停止/恢复,同时支持失败重试/告警、从指定节点恢复失败、Kill 任务等操作;4、支持工作流全局参数及节点自定义参数设置;5、支持集群HA,通过 Zookeeper实现 Master 集群和 Worker 集群去中心化;6、支持工作流运行历史树形/甘特图展示、支持任务状态统计、流程状态统计;7、支持补数,并行或串行回填数据。课程会带大家构建DolphinScheduler大数据调度平台,实战讲解多种任务调度配置,会基于案例讲解DolphinScheduler使用,让大家在实战中掌握DolphinScheduler。 DolphinScheduler 发展很快 很多公司调度都切换到了DolphinScheduler,掌握DolphinScheduler调度使用势在必行,抓住新技术机遇,为跳巢涨薪做好准备。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值