Apache DolphinScheduler MLflow 项目教程
1. 项目的目录结构及介绍
Apache DolphinScheduler MLflow 项目的目录结构如下:
dolphinscheduler-mlflow/
├── bin
│ ├── dolphinscheduler_env.sh
│ └── start.sh
├── conf
│ ├── common.properties
│ └── logback.xml
├── docs
│ └── README.md
├── src
│ ├── main
│ │ ├── java
│ │ └── resources
│ └── test
│ ├── java
│ └── resources
├── .gitignore
├── LICENSE
├── NOTICE
└── README.md
目录结构介绍
bin/
: 包含启动脚本和环境配置文件。dolphinscheduler_env.sh
: 环境变量配置文件。start.sh
: 启动 DolphinScheduler 的脚本。
conf/
: 包含项目的配置文件。common.properties
: 通用配置文件。logback.xml
: 日志配置文件。
docs/
: 包含项目的文档文件。README.md
: 项目说明文档。
src/
: 包含项目的源代码。main/
: 主代码目录。java/
: Java 源代码。resources/
: 资源文件。
test/
: 测试代码目录。java/
: 测试 Java 源代码。resources/
: 测试资源文件。
.gitignore
: Git 忽略文件配置。LICENSE
: 项目许可证文件。NOTICE
: 项目声明文件。README.md
: 项目说明文档。
2. 项目的启动文件介绍
启动文件
-
bin/dolphinscheduler_env.sh
: 该文件用于配置 DolphinScheduler 运行所需的环境变量。例如:export PYTHON_HOME=$(dirname $(which conda))/python
-
bin/start.sh
: 该文件用于启动 DolphinScheduler 服务。启动命令如下:cd apache-dolphinscheduler-3.1.0-bin bash bin/dolphinscheduler-daemon.sh start standalone-server
启动步骤
-
配置环境变量:
echo "export PYTHON_HOME=$(dirname $(which conda))/python" >> apache-dolphinscheduler-3.1.0-bin/bin/env/dolphinscheduler_env.sh
-
启动 DolphinScheduler:
cd apache-dolphinscheduler-3.1.0-bin bash bin/dolphinscheduler-daemon.sh start standalone-server
-
查看日志:
tail -500f standalone-server/logs/dolphinscheduler-standalone.log
3. 项目的配置文件介绍
配置文件
-
conf/common.properties
: 该文件包含项目的通用配置,例如 MLflow 的预设仓库路径:ml.mlflow.preset_repository=/path/to/dolphinscheduler-mlflow
-
conf/logback.xml
: 该文件用于配置项目的日志输出格式和级别。
配置步骤
-
克隆项目仓库:
git clone https://github.com/apache/dolphinscheduler-mlflow.git
-
修改
common.properties
文件:ml.mlflow.preset_repository=/path/to/dolphinscheduler-mlflow
-
启动 DolphinScheduler:
cd apache-dolphinscheduler-3.1.0-bin bash bin/dolphinscheduler-daemon.sh start standalone-server
通过以上步骤,您可以成功配置和启动 Apache DolphinScheduler MLflow 项目。