提示:假设dolphinscheduler环境已经搭建好
一、环境配置
DolphinScheduler安装完成后,如果使用DataX组件进行数据抽取,则需要配置相关依赖地址(DataX、Python)
配置(dolphinscheduler/bin/env/dolphinscheduler_env.sh)
export PYTHON_HOME=${PYTHON_HOME:-/usr/local/Cellar/python/3.7.5/bin/python3.7}
export DATAX_HOME=${DATAX_HOME:-/Users/lijiuyang/Downloads/开发相关/安装包/datax-web/datax}
二、安全中心
创建租户
注意: 后面执行工作流时会使用该租户,所以要确保租户是否有执行权限,如果没有的话在执行时会报没有权限,需要密码,然后执行失败,推荐是操作系统租户(就是自己有权限的名字)
三、数据源中心
这里根据提示正常配置就行, 如果报错的话, 一般是缺少mysql依赖包,去下载对应的导入就行
四、数据源配置
1. 项目管理
首先需要创建一个项目才可以后续操作(创建好之后需要点击项目,进去后才可以创建对应的工作流、任务)
2.工作流
创建工作流,然后左侧找到对应的组件拖拽到画布进行编辑
以根据时间进行数据增量同步为例:
名称 | 作用 |
---|---|
时间记录表(表1-tim_ctl) | 记录上次同步后的时间,每次都先查询获取时间条件 |
源表(表2-master) | 取数据 |
目标表(表3-slave) | 塞数据 |
思路: 查询表1获取时间,作为表2查询的增量条件,然后把增量数据塞到表3
3.启动工作流
上线后才可以运行, 同理,下线后才可编辑
总结
本章仅是做了DataX的增量抽取案例, 其余组件使用后续敬请关注
谢谢 ^ - ^