DolphinScheduler3，2024年最新1个月学会大数据开发开发

最新推荐文章于 2024-10-05 11:27:00 发布

2401_84186109

最新推荐文章于 2024-10-05 11:27:00 发布

阅读量708

点赞数 23

分类专栏： 2024年程序员学习文章标签：大数据

本文链接：https://blog.csdn.net/2401_84186109/article/details/137844741

版权

2024年程序员学习专栏收录该内容

45 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

+ Fedora/Red/Hat/CentOS/Ubuntu/Debian 安装`psmisc`

*注意: DolphinScheduler 本身不依赖 Hadoop、Hive、Spark，但如果你运行的任务需要依赖他们，就需要有对应的环境支持

准备 DolphinScheduler 启动环境

配置用户免密及权限

创建部署用户，并且一定要配置 sudo 免密。以创建 dolphinscheduler 用户为例

# 创建用户需使用 root 登录
useradd dolphinscheduler

# 添加密码
echo "dolphinscheduler" | passwd --stdin dolphinscheduler

# 配置 sudo 免密
sed -i '$adolphinscheduler ALL=(ALL) NOPASSWD: NOPASSWD: ALL' /etc/sudoers
sed -i 's/Defaults requirett/#Defaults requirett/g' /etc/sudoers

# 修改目录权限，使得部署用户对二进制包解压后的 apache-dolphinscheduler-\*-bin 目录有操作权限
chown -R dolphinscheduler:dolphinscheduler apache-dolphinscheduler-*-bin
chmod -R 755 apache-dolphinscheduler-*-bin

*注意:

因为任务执行服务是以 sudo -u {linux-user} 切换不同 linux 用户的方式来实现多租户运行作业，所以部署用户需要有 sudo 权限，而且是免密的。初学习者不理解的话，完全可以暂时忽略这一点
如果发现 /etc/sudoers 文件中有 “Defaults requirett” 这行，也请注释掉

配置机器 SSH 免密登陆

由于安装的时候需要向不同机器发送资源，所以要求各台机器间能实现 SSH 免密登陆。配置免密登陆的步骤如下

su dolphinscheduler

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

*注意: 配置完成后，可以通过运行命令 ssh localhost 判断是否成功，如果不需要输入密码就能 ssh 登陆则证明成功

启动 zookeeper

进入 zookeeper 的安装目录，将 zoo_sample.cfg 配置文件复制到 conf/zoo.cfg，并将 conf/zoo.cfg 中 dataDir 中的值改成 dataDir=./tmp/zookeeper

# 启动 zookeeper
./bin/zkServer.sh start

修改相关配置

完成基础环境的准备后，需要根据你的机器环境修改配置文件。配置文件可以在目录 bin/env 中找到，他们分别是并命名为 install_env.sh 和 dolphinscheduler_env.sh。

修改 `install_env.sh` 文件

文件 install_env.sh 描述了哪些机器将被安装 DolphinScheduler 以及每台机器对应安装哪些服务。您可以在路径 bin/env/install_env.sh 中找到此文件，可通过以下方式更改 env 变量,export <ENV_NAME>=，配置详情如下。

# ---------------------------------------------------------
# INSTALL MACHINE
# ---------------------------------------------------------
# Due to the master, worker, and API server being deployed on a single node, the IP of the server is the machine IP or localhost
ips="localhost"
sshPort="22"
masters="localhost"
workers="localhost:default"
alertServer="localhost"
apiServers="localhost"

# DolphinScheduler installation path, it will auto-create if not exists
installPath=~/dolphinscheduler

# Deploy user, use the user you create in section \*\*Configure machine SSH password-free login\*\*
deployUser="dolphinscheduler"

修改 `dolphinscheduler_env.sh` 文件

文件 ./bin/env/dolphinscheduler_env.sh 描述了下列配置：

DolphinScheduler 的数据库配置，详细配置方法见[初始化数据库]
一些任务类型外部依赖路径或库文件，如 JAVA_HOME 和 SPARK_HOME都是在这里定义的

如果您不使用某些任务类型，您可以忽略任务外部依赖项，但您必须根据您的环境更改 JAVA_HOME、注册中心和数据库相关配置。

# JAVA\_HOME, will use it to start DolphinScheduler server
export JAVA\_HOME=${JAVA\_HOME:-/opt/soft/java}

# Database related configuration, set database type, username and password
export DATABASE=${DATABASE:-postgresql}
export SPRING\_PROFILES\_ACTIVE=${DATABASE}
export SPRING\_DATASOURCE\_URL="jdbc:postgresql://127.0.0.1:5432/dolphinscheduler"
export SPRING\_DATASOURCE\_USERNAME={user}
export SPRING\_DATASOURCE\_PASSWORD={password}

# DolphinScheduler server related configuration
export SPRING\_CACHE\_TYPE=${SPRING\_CACHE\_TYPE:-none}
export SPRING\_JACKSON\_TIME\_ZONE=${SPRING\_JACKSON\_TIME\_ZONE:-UTC}
export MASTER\_FETCH\_COMMAND\_NUM=${MASTER\_FETCH\_COMMAND\_NUM:-10}

# Registry center configuration, determines the type and link of the registry center
export REGISTRY\_TYPE=${REGISTRY\_TYPE:-zookeeper}
export REGISTRY\_ZOOKEEPER\_CONNECT\_STRING=${REGISTRY\_ZOOKEEPER\_CONNECT\_STRING:-localhost:2181}

# Tasks related configurations, need to change the configuration if you use the related tasks.
export HADOOP\_HOME=${HADOOP\_HOME:-/opt/soft/hadoop}
export HADOOP\_CONF\_DIR=${HADOOP\_CONF\_DIR:-/opt/soft/hadoop/etc/hadoop}
export SPARK\_HOME=${SPARK\_HOME:-/opt/soft/spark}
export PYTHON\_LAUNCHER=${PYTHON\_LAUNCHER:-/opt/soft/python}
export HIVE\_HOME=${HIVE\_HOME:-/opt/soft/hive}
export FLINK\_HOME=${FLINK\_HOME:-/opt/soft/flink}
export DATAX\_LAUNCHER=${DATAX\_LAUNCHER:-/opt/soft/datax/bin/python3}

export PATH=$HADOOP\_HOME/bin:$SPARK\_HOME/bin:$PYTHON\_LAUNCHER:$JAVA\_HOME/bin:$HIVE\_HOME/bin:$FLINK\_HOME/bin:$DATAX\_LAUNCHER:$PATH